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内 容 简介 

本 书 用 通俗 易 懂 的 语言 深入 浅 出 地 介绍 了 强化 学 习 的 基本 原理 ， 覆 
盖 了 传统 的 强化 学 习 基 本 方法 和 当前 炙手可热 的 深度 强化 学 习 方法 。 开 
篇 从 最 基本 的 马尔 科 夫 决策 过 程 入 手 ， 将 强化 学 习 问题 纳入 到 严谨 的 数 
学 框架 中 ， 接 着 阐述 了 解决 此 类 问题 最 基本 的 方法 _ “动态 规划 方法 ， 
并 从 中 总 结 出 解决 强化 学 习 问 题 的 基本 思路 : 交互 兴 代 策略 评估 和 策略 
改善 。 基 于 这 个 思路 ， 分 别 介绍 了 基于 值 函数 的 强化 学 习 方 法 和 基于 直 
接 策略 搜索 的 强化 学 习 方 法 。 最 后 介绍 了 逆向 强化 学 习 方法 和 近年 具有 
代表 性 、 比 较 前 沿 的 强化 学 习 方 法 。 

除了 系统 地 介绍 基本 理论 ， 书 中 还 介绍 了 相应 的 数学 基础 和 编程 实 
例 。 因 此 ， 本 书 既 适合 零 基 础 的 人 员 入 门 学 习 、 也 适合 相关 科研 人 员 作 
为 研究 参考 ， 
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强化 学 习 是 机 笑 学 习 的 一 个 童 要 分 文 ， 它 试图 解决 决策 优化 的 问 
Ho MARR, ENR ERA (State，S) ， 采 取 什 么 行动 方 
Z (Action, A) ， 才 能 使 收益 最 大 (Reward, R) . RE (ASR 
策 优 化 有 关 ， 比 如 下 柑 、 投 资 、 课 程 安排 、 轨 车 ， 动 作 模仿 等 。 

AlphaGo 的 核心 算法 ， 残 是 强化 学 习 。AlphaGo 不 仅 稳 操 胜 状 地 战 
胜 了 当今 世界 所 有 人 类 癌 手 ， 而 且 其 全 不 需要 学 习 人 类 棋 手 的 棋谱 ， 完 
全 徘 卓 己 措 索 ， 束 在 短 短 几 天 内 ， 发 现 并 超越 了 一 干 多 年 来 人 类 积 系 的 
全 部 围棋 战略 战术 。 

最 简 蛙 的 强化 学 习 的 数学 模型 ， 是 马尔 科 夫 决策 过 程 (Markov 
Decision Process, MDP) 。 之 所 以 说 MDP 是 一 个 简单 的 模型 ， 是 因为 它 
对 问题 做 了 很 多 限制 。 

1. 面 对 的 状态 st ， 数 量 是 有 限 的 。 

2. 采 取 的 行动 方案 at ， 数 量 也 是 有 限 的 。 

3. 对 应 于 特定 状态 st ， 当 下 的 收益 rt 是 明确 的 。 

4. 在 某 一 个 时 刻 t， 采 取 了 行动 方案 at ， 状 态 从 当前 的 st 转换 成 下 一 
个 状态 st+1 o 下 一 个 状态 有 多 种 可 能 ， 记 为 8 > 1=1...N. 

换 句 话说 ， 面 对 局 面 st ， 采 取 行 动 at ， 下 一 个 状态 是 $i ， 不 是 确 
定 的 ， 而 是 概率 的 ， 状 态 转 换 概率 ， 记 为 P(sim|s, a) ” 。 但 是 状态 转 
换 只 依赖 于 当前 状态 st ， 而 与 先前 的 状态 st-1 ，st-? … 无 天 。 

解决 马尔 科 夫 决策 过 程 问题 的 第 用 的 和 拭 法 ， 是 动态 规划 (Dynamic 
Programming) 。 

对 马尔 科 夫 决策 过 程 的 各 项 限制 ， 不 断 放 松 ， 研 究 相 应 的 算法 ， 是 
强化 学 习 的 目标 。 例 如 对 状态 st 放松 限制 : 


1. 假 如 状态 st HAE, BAAR, BEKEER, Wm PERISA 


划算 法 的 计算 成 本 ; 

2. 假 如 状态 st 的 数量 是 无 限 的 ， 现 有 动态 规划 算法 失效 ， 如 何 改进 
算法 ; 

3. 假 如 状态 st 的 数量 不 仅 是 无 限 的 ， 而 且 取 人 不 是 离散 的 ， 而 是 连 
续 的 ， 如 何 改 进 算法 ; 

4. 假 如 状态 st 不 能 被 完全 观察 到 ， 只 能 被 部 分 观察 到 ， 剩 余部 分 家 
EFS BRR, U SE EYE 

5. 假 如 状态 st 完全 不 能 被 观察 到 ， 只 能 通过 其 他 现象 猜测 游 在 的 状 
态 ， 如 何 改 进 算法 。 

放松 限制 ， 束 是 提升 问题 难度 。 在 很 多 情况 下 ， 强 化 学 习 的 目标 ， 
不 征 村 找 绝对 的 了 最 优 解 ， 而 征 可 找 相 对 注意 的 识 优 解 。 

强化 学 习 的 演进 ， 有 两 个 轴线 : 一 个 是 不 断 挑战 更 难 的 问题 ， 不 断 
MIRRE ERE: 另 一 个 是 在 不 严重 影响 算法 精度 的 前 手下 ， 不 
靳 降低 算法 的 计算 成 本 。 

此 书 的 叙述 线 款 非 名 清晰， 从 最 简单 的 解决 马尔 科 夫 决策 过 程 的 动 
态 规 划算 法 ， 一 路 讲解 到 最 前 沿 的 深度 强化 学 习 算 法 (Deep Q 
Network, DQN) ， 早 思 直 入 ， 全 无 术 枝 曼 萤 之 感 。 不 仪 解释 数学 原 
H, WHEKE. F, TRAR. WA a TE. 

4 AS 5-5 Richard Sutton fll Andrew Barto HZ HL VE 
Reinforcement Learning: An Introduction, Second EditiontHlt, Sutton #l 
BartofEA A ERA, Am SHOEI ATSC ICMR: 而 
本 书 更 强调 实用 ， 是 值得 精读 的 教材 。 

MD Air 

PhD of Robotics Institute, School of Computer Science, Carnegie 
Mellon University, #/Oracle 主任 架构 师 、 前 百度 网 页 搜索 部 高 级 总 
His ACR KBRIAR IE RA 9G A 
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强化 学 习 叉 称 为 增强 和 学习 或 再 励 学 习 (Reinforcement learning) , 
Zz AlphaGo, AlphaGo Zero 和 守 人 工 智 能 软件 的 核心 技术 。 近 年 来 ， 随 看 
局 性 能 计算 、 大 数据 和 深度 学 习 技 术 的 突 飞 独 进 ， 强 化 学 习 算 法 及 其 应 
用 也 得 到 更 为 广泛 的 关注 和 更 加 快速 的 及 展 。 尤 其 是 强化 学 习 与 深度 学 
习 相 结合 而 上 友 展 起 来 的 深度 强化 学 习 技 术 已 经 取得 乔 干 突破 性 进展 。 
AlphaGo 与 人 美 顶 级 棋 手 之 间 的 对 大 ， 使 得 深度 踢 化 学 习 技 术 在 学 术 界 
和 工业 界 得 到 了 更 为 广泛 的 关注 。 蝇 化 学 习 不 仅 在 计算 机 博 硬 中 取得 巨 
大 成 功 ， 而 且 在 机 如 人 控制 、 汽 车 智能 千 驶 、 人 机 对 话 、 过 程 优 化 决 代 
与 控制 等 领域 ， 也 被 认为 是 实现 高 级 人 工 知 能 最 有 游 力 的 方法 。 

本 人 在 多 年 从 事 强 化 学 习 与 近似 动态 规划 理论 和 应 用 的 研究 过 程 
中 ， 力 求 不 断 提 升 强化 学 习 算 法 的 快速 收敛 性 和 泛 化 性 能 ， 并 且 将 强化 
学 习 狐 理论 和 新 算法 应 用 于 移动 机 各 人 和 目 主 驾驶 车 辆 等 领域 ， 为 智能 
KON Las AA A SE EER RE RP OB A BA EDR RAL H 
OD Pe ill Fe HE ie UNIAN Ee. SJ, BA FACE Ve ERY JS i 
wD, TEA SSR TE AY RENEA MA Eee, BREIEN 
ARBRE REAREA AR at Se SH AY FER AR SBT YI RAK 

强化 学 习 的 思想 从 20 世纪 初 便 被 提出 来 了 ， 经 过 将 近 一 个 世纪 的 
发 展 ， 强 化 学 习 与 心理 学 、 运 筹 学 、 入 能 控制 、 优 化 理论 、 计 算 乔 能 、 
认 知 科学 等 学 科 有 痢 密 切 的 联系 ， 十 一 个 典型 的 多 学 科 交 叉 领 域 。 来 目 
不 同学 科 的 概念 和 思想 使 得 初学 者 学 习 和 了解 强化 学 习 存 在 较 大 的 
难 。 郭 完 博 士 和 方 田 纯 教 授 的 这 本 《深入 浅 出 强化 学 习 : BEAT) H 
通俗 的 语言 系统 地 讲解 了 强化 和 学习 的 基本 概念 以 及 它们 之 间 的 关联 天 
系 。 从 内 容 的 广度 来 看 ， 这 本 书 池 兰 了 强化 学 习 领 域 的 基本 概念 和 基本 
方法 (基于 值 函 数 的 方法 和 基于 直接 策略 搜索 的 方法 ) ; 从 内 容 的 深度 
来 看 ， 这 本 书 既 有 传统 的 强化 学 习 算 法 (基于 表格 的 强化 学 习 方 法 ， 如 
Qlearning，Sarsa 算 法 等 ) ， 也 有 最 近 用 展 起 来 的 深度 强化 学 习 算 法 《如 
DQN，TRPO，DDPG 等 ) 。 另 外 ， 该 书 还 有 两 大 特色 : 第 一 ， 在 介绍 
强化 学 习 算 法 的 同时 ， 相 应 地 介绍 了 算法 设计 和 分 析 的 数学 基础 ， 第 
二 ， 相 关 算 法 配 有 代码 实例 。 这 两 个 特色 使 得 该 书 非常 适合 初学 者 、 相 


关 领 域 科研 人 员 以 及 研究 生 学 习 和 研讨 。 鉴 于 此 ， 强 烈 推 荐 该 书 作 为 广 
大 读 痢 学 习 强 化 学 习 技术 的 入 门 读物 ， 也 布 望 该 书 能 引 叶 和 帮助 更 多 的 
学 着 投入 到 中 化 学 习 的 研究 和 应 用 中 ， 为 我 国 新 一 代 人 工 重 能 的 及 展 页 
PA OW 
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国防 科技 六 学 教授 
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继 深 上 度 学 习 与 大 数据 结合 产生 了 巨 大 的 技术 红利 之 后 ， 人 们 开始 探 
索 后 深度 学 习 时 代 的 新 技术 方 回 。 当 前 主流 的 机 占 学 习 范 式 大 都 是 以 预 
先 收集 或 构造 数据 及 标签 ， 基 于 已 存在 的 静态 数据 进行 机 器 学 习 为 特征 
的 “ 开 环 学 习 ”。 近 年 来 ， 采 用 动态 的 数据 及 标签 ， 将 数据 产生 与 模型 优 
化 通过 一 定 的 交互 方式 结合 在 一 起 ， 将 动态 反馈 信号 引入 学 习 过 程 
的 “闭环 学 习 ” 受 到 越 来 越 多 的 关注 。 强 化 学 习 就 是 “闭环 学 习 ” 范 式 的 典 
型 代表 。 

在 AlphaGo 战 胜 人 类 围棋 选手 之 后 ，AlphaGO ”Zero 以 其 完全 凭借 自 
我 学 习 超越 人 基数 干 年 经 验 的 能 力 再 次 刷新 了 人 次 对 人 工 知 能 的 认识 。 
而 这 一 人 工 智能 领域 的 巨大 成 功 的 核心 承 是 强化 学 习 与 深度 学 习 的 疆 
合 ， 这 也 使 得 强化 学 习 这 一 行为 主义 学 习 范 式 ， 受 到 了 学 术 界 和 产业 界 
的 新 一 轮 广 泛 关 注 。 

本 书 的 出 版 正 是 在 这 样 的 背景 下 ， 可 谓 恰 逢 其 时 。 本 书 深入 浅 出 地 
XY SI ET SRA TA, RSTO UIA TE. E 
时 ， 结 合 OpenAI 的 仿真 环境 ， 将 强化 学 习 算 法 的 实际 使 用 与 理论 介绍 
联系 起 来 ， 有 具有 很 强 的 实用 性 。 在 强化 学 习 方 法 论 得 到 广泛 关注 ， 以 及 
其 实践 需求 快速 增长 的 背景 下 ， 这 是 一 本 很 好 的 入 门 教程 。 


Aare 


yO 
TE te FP WY 

AlphaGofiyt@EtKit 7 CARRE) 强化 学 习 技术 的 一 轮 热潮 ， 该 方向 
已 成 为 人 工 智 能 领域 最 热门 的 方向 之 一 ， 由 于 其 通用 性 而 备 受 各 个 应 用 
领域 推 尝 ， 从 端 对 端 控制 、 机 器 人 手臂 控制 ， 到 推荐 系统 、 自 然 语言 对 
话 系统 等 。 (深度 ) 强化 学 习 也 被 OpenAI 等 公司 认为 是 实现 通用 人 工 
智能 的 重要 途径 ， 

然而 目前 强化 学 习 中 文 资料 相对 零散 ， 缺 少 兼 具 系 统 性 和 前 沿 性 的 
强化 学 习 教学 及 科研 资料 。 郭 博士 的 《深入 浅 出 强化 学 习 ， 原 理 入 门 》 
这 本 书 恰好 填补 了 这 一 空白 。 本 书 根据 郭 博士 在 知 乎 的 强化 学 习 专栏 内 
容 整 理 而 成 ， 条 分 缕 析 、 通 俗 易 懂 ， 既 对 强化 学 习 基础 知识 做 了 全 方 
面 " 深 入 浅 出 的 讲述 ， 又 涵盖 了 深度 强化 学 习 领 域 一 系列 最 新 的 前 沿 技 
术 。 因 此 它 无 论 是 对 强化 学 习 的 入 门 者 ， 还 是 强化 学 习 领 域 研究 人 员 和 
工程 师 ， 都 是 一 本 很 好 的 推荐 读物 ， 相 信 不 同 的 读者 都 会 从 中 获 益 。 

郝 建 业 

天 津 大 学 副教授 、 天 津 市 青年 千 人 、 天 津 大 学 “北洋 青年 学 者 ” 
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受 行为 主义 心理 学 研究 局 友 ， 在 机 妖 学 习 领 域 中 产生 了 一 种 交互 式 
学 习 方 法 的 分 文 ， 这 便 是 强化 学 习 ， 叉 称 为 增强 学 习 。 强 化 学 习 模 拟 的 
是 人 类 的 一 种 学 习 方 式 ， 在 执行 某 个 动作 或 决策 后 根据 执行 效果 来 获得 
奖励 ， 通 过 不 断 与 环境 的 交互 进行 学 习 ， 最 终 达 到 目标 。 强 化 学 习 概 食 
早 在 上 世纪 就 已 经 提出 ， 在 计算 机 领域 ， 第 一 个 增强 学 习 问 题 是 利用 奖 
征 手 段 学 习 迷 宫 策略 。 然 而 ， 直 到 2016 年 AlphaGo 对 决 李 世 石 一 战 成 名 
后 ， 强 化 学 习 的 概念 才 真 正三 为 人 知 。 强 化 学 习 主 要 应 用 于 众多 市 有 交 
互 性 和 决策 性 问题 ， 比 如 博 庆 、 洲 戏 、 机 右 人 、 人 机 对 话 等 ， 这 些 问 题 
是 党 用 的 监督 学 习 和 非 监 督学 习 方 法 无 法 很 好 人 处理 的 。 

本 人 一 直 从 事 移动 机 大 人 、 机 器 视觉 和 机 器 学 习 领 域 的 研究 ， 以 及 
人 工 智 能 谍 程 的 教学 。 此 前 ， 为 了 解决 人 形 机 器 人 笠 圾 稳定 行走 问题 ， 
下 得 阅 这 度 学 习 相 天资 料 的 过 程 中 ， 在 网 上 偶然 看 到 郭 宪 博士 开辟 的 强 
化 学 习 专 栏 ， 谈 后 很 有 收 获 。 现 在 他 将 专栏 文章 整理 编著 成 书 ， 重 新 投 
知识 层次 进行 编排 和 补 序 ， 对 于 旋 者 学 习 更 有 帮助 。 

本 书 复 闸 了 强化 学 习 最 基本 的 概念 和 算法 。 在 基于 信函 数 的 强化 学 
ATE, SAS Sr RIK. WANE eA. FETA 
FORMATE AR ELS SIE, MA SRNR RE, BARRIKA M 
E ERER VEAL S| SRR R. FEES SN BI oD, NA SETA 
强化 学 习 、 深 度 强化 学 习 和 PILCO 等 。 除 了 深度 学 习 算 法 本 身 ， 书 中 
还 对 涉及 的 基础 知识， 如 概 认 学 基础 、 瑟 尔 科 夫 决 傈 过 程 、 线 性 方程 组 
WUE RAAT IA. PRE TIA. Ta Se AIRS ET Hs A cos HH S 
FRH. KRIER Ee ECA SST AE IO EA TA EA 
入 门 强 化 学 习 的 读物 ， 也 可 作为 相 天 研究 和 教学 的 参考 书 。 

本 书 内 容 深 入 浅 出 、 文 字 简 单 明 了 ， 采 用 了 丰富 的 实例 ， 让 读 考 多 
谈 、 多 恒 。 同 时 配 有 习题 和 代码 详解 ， 能 有 效 提 升 谈 者 对 理论 知识 的 理 
解 ， 帮 助 谈 者 运用 理论 解雇 实际 问题 。 建 议 谈 者 跟随 书 中 的 示例 和 代码 
(https: //github.com/gxnk/reinforcement-learning-code) 来 实现 和 验证 相 
关 强 化 学 习 算 法 ， 并 可 同时 关注 作者 的 知 乎 专栏 


(https: //zhuanlan.zhihu.com/sharerl) 以 便 更 好 地 互动 和 探讨 相关 细 
际 日 帆 
中 南大 学 副教授 湖南 省 目 兴 人 工 智 能 研究 院 副 院 长 
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一 个 新 的 阶段 。AlphaGo 背 后 的 核心 算法 一 一 深度 强化 学 习 一 -一 成 为 继 
深度 学 习 之 后 广泛 受 人 关注 的 前 沿 热点 。 与 深度 学 习 相 比 ， 深 度 强化 学 
习 具 有 更 宽泛 的 应 用 背景 ， 可 应 用 于 机 嚣 人、 游戏、 目 然 语言 处 理 、 图 
像 处 理 、 视 频 处 理 等 领域 。 深 度 强 化 学 习 算 法 被 认为 是 最 有 可 能 实现 通 
用 人 工 智 能 计算 的 方法 。 不 过 ， 由 于 深度 强化 学 习 算法 融合 了 深度 学 
习 、 统 计 、 信 息 学 、 运 筹 学 、 概 率 论 、 优 化 等 多 个 学 科 的 内 容 ， 因 此 强 
化 学 习 的 入 门 门槛 比较 高 ， 并 且 ， 到 目前 为 止 ， 市 面 上 没有 一 本 零 基 础 
全 面 介绍 强化 学 习 算 法 的 书籍 。 

本 书 是 笔者 在 南开 大 学 计算 机 与 控制 工程 学 院 做 博士 后 期 间 ， 每 周 
在 诬 题 组 内 讲解 强化 学 习 知 识 的 讲义 合集 。 在 学 习 强 化 学 习 基 本 理论 的 
时 候 ， 我 深 深 地 感受 到 强化 学 习 理 论 中 的 很 多 概念 和 公式 都 很 难 理解 。 
经 过 大 量 资料 和 文献 的 查阅 并 终于 理解 一 个 全 新 的 概念 时 ， 内 心 涌现 的 
那 种 喜悦 和 兴奋 ， 鼓 动 着 我 将 这 些 知识 分 享 给 大 家 。 为 此 ， 我 在 知 乎 开 
尽 了 《强化 学 习 知 识 大 讲堂 》 专 柱 ， 并 其 本 保持 了 每 周一 次 更 新 的 速 
度 。 该 专栏 得 到 大 家 的 关注 ， 很 多 知 友 反 映 受 益 展 多， 本 书 的 雏形 正 是 
来 源 于 此 。 在 成 书 时 ， 考 虑 到 书 的 逻辑 性 和 完整 性 ， 又 添加 了 很 多 数学 
基础 和 实例 讲解 。 和 希望 本 书 能 帮助 更 多 的 人 入 门 强化 学 习 ， 开 局 目 己 的 
人 工 智 能 之 旅 。 

在 写作 过 程 中 ， 博 士 后 合作 导师 方 男 纯 教授 给 了 大 量 的 建议 ， 包 丘 
书 的 整体 结构 、 每 一 章 的 讲述 方式 ， 甚 至 每 个 标题 的 选择 。 写 作 后 ， 方 
老师 细致 地 审阅 了 全 文 ， 给 出 了 详细 的 批注 ， 并 多 次 当面 指导 书稿 的 修 
改 。 正 是 因为 方 老师 的 耐心 指导 与 辛勤 付出 ， 本 书 才 得 以 顺利 完成 。 

同时 ， 非 常 感谢 组 内 的 研究 生 丁 杰 、 朱 威 和 赵 馅 芒 三 位 同学 ， 通 过 
与 他 们 的 交流 ， 我 学 会 了 如 何 更 明晰 地 讲解 一 个 概念 。 本 书 的 很 多 讲解 
方式 都 是 在 与 他 们 的 交流 中 产生 的 。 

本 书 在 写作 过 程 中 参考 了 很 多 文献 资料 ， 这 些 文 献 资料 是 无 数 科研 
工作 者 们 日 日 夜 夜 奋斗 的 成 果 。 本 书 对 这 些 成 果 进 行 加 工 并 形成 了 一 套 


目 成 体系 的 原理 入 门 教 程 。 可 以 说 没有 这 些 科 研 工作 者 们 的 丰 倾 成 果 束 
没有 今天 莹 动 发 展 的 人 工 和 六 能 ， 也 就 没有 这 本 书 ， 在 此 对 这 些 科学 工作 
a NIZE AN HA EY US 

本 书 前 六 章 的 内 容 及 组 织 思路 很 大 部 分 参考 了 David Silver 的 网 络 诬 
程 ， 同 时 参考 了 强化 学 习 瞄 祖 Richard S.Sutton SAMEN 
Reinforcement Learning: An Introduction， 在 此 加 Silver 和 Sutton 致 葡 。 

本 书 第 8 章 介 绍 了 置信 域 强 化 学 习 算 法 ， 主 要 参考 了 了 John Shulman 的 
博士 论文 ， 在 此 问 John Shulman 博 士 及 其 导师 Pieter Abbeel 致 若 。 第 10 
章 主要 介绍 了 Sergey Levine 博 士 的 工作 ， 在 此 对 其 表示 感谢 。 在 强化 学 
习 前 沿 部 分 ， 本 书 介 绍 了 最 近 一 年 该 领域 很 优秀 的 研究 工作 ， 如 
Donoghue 的 组 合 策 略 梯度 和 Qlearning 方 法 ，Tamar 的 值 迭 代 网 络 ， 
Deisenroth 的 PILCO 方 法 和 McAllister 的 PILCO 扩 展 方 法 ， 在 此 对 这 些 作 
者 表示 感谢 。 当 然 ， 本 书 还 介绍 了 很 多 其 他 科研 工作 者 的 工作 ， 在 此 对 
他 们 一 并 致谢 。 

本 书 曾 述 的 主要 是 前 人 提出 的 强化 学 习 算 法 的 基本 理论 ， 并 没有 介 
绍 笔者 个 人 的 工作 ， 但 在 此 仍然 要 感谢 目前 我 负 贡 的 两 项 基金 的 文 持 : 
国家 自然 科学 基金 青年 基金 〈61603200) 和 中 国 博士 后 基金 面 上 项 目 

(2016M601256) 。 这 两 个 项 目 都 和 强化 学 习 有 关 ， 本 书 也 可 看 成 是 这 
两 个 项 目的 前 期 调研 和 积 系 。 关 于 更 多 笔者 个 人 的 工作 ， 留 每 以 后 再 与 
KARA Eo 

HPS AKC A BR tia EE Se A a OD 4 eI 
指正 。 我 的 个 人 邮箱 是 guoxiansia@D163.com， 如 有 疑问 ， 欢 迎 咨询 。 

最 后 ， 感 谢 我 的 家 人 ， 感 谢 我 的 爱人 王 凯 女士 ， 感 谢 她 长 时 间 对 我 
的 理解 和 文 持 ， 没 有 她 的 帮助 ， 我 一 无 所 有 ， 一 事 无 成 。 这 本 书 献 给 
她 。 
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1.1 这 是 一 本 什么 书 


这 是 一 本 人 人 都 可 以 读 懂 的 书 。 唐 代 大 诗人 白居易 写 诗 定稿 的 标准 
E EWE”, that et A AE TSE AY EA A eT aE ee 
诗 。 本 书 力求 做 到 这 一 点 。 不 过 ， 真 正 做 到 “ 老 怒 能 解 ” 的 程度 还 是 有 困 
难 的 。 因 为 强化 学 习 是 集 数 学 、 工 程 学 、 计 算 机 科学 、 心 理学 、 神 经 科 
学 于 一 血 的 交叉 学 科 。 力 图 将 这 门 “ 深 奥 * 的 学 科 讲 明白 ， 是 写作 本 书 的 
目的 。 

本 书 讲 的 是 强化 学 习 算法 ， 什 么 是 强化 学 习 算 法 昵 ， 它 离 我 们 有 多 
we? 2016 年 和 2017 年 最 具 影 响 力 的 AlphaGo 大 胜 世 界 围 棋 冠 军 李 志 石 
和 柯 尘 事件 ， 其 核心 算法 就 用 到 了 强化 学 习 算 法 。 相 信 很 多 人 想 了 解 或 
者 转行 研究 强化 学 习 算 法 或 多 或 少 都 跟 这 两 场 赛 事 有 联系 。 如 今 ， 强 化 
学 习 继 深 度 学 习 之 后 ， 成 为 学 术 界 和 工业 界 追 捧 的 热点 。 从 目前 的 形式 
看 ， 强 化 学 习 正 在 各 行 各 业 开 花 结 果 ， 前 途 一 片 大 好 。 然 而 ， 强 化 学 习 
的 入 门 却 很 难 ， 明 明知 道 它 是 一 座 “ 金 山 ”， 可 是 由 于 总 不 能 入 门 ， 只 能 
望 “金山 ?而 兴叹 了 。 另 外 ， 市 面 上 关于 强化 学 习 的 中 文书 并 不 多 ， 即 便 
有 ， 翻 开 几 页 出 现 的 各 种 专业 术语 ， 一 下 束 把 人 搞 懂 了 。 本 来 下 定 决 心 
要 哺 下 这 块 硬 骨头 的 ， 可 是 哺 了 几 天 发 现 ， 越 哨 越 痛 亩 ， 连 牙 都 咯 挥 
了 ， 肉 汗 还 没 吃 到 。 本 书 下 决心 不 给 大 家 吃 此 涉 ， 只 给 肉 ， 因 此 本 书 与 
其 他 教科 书 有 以 下 几 个 方面 的 不 同 。 

第 一 ， 本 书 的 语言 风格 偏 口语 化 。 因 为 本 书 的 写作 目的 是 让 大 家 尺 
快 入 门 强 化 学 习 。 众 所 周知 ， 学 一 门 新 的 课程 ， 最 快 的 入 门 方式 就 是 请 
私人 家 教 进行 一 对 一 的 训练 。 然 而 ， 由 于 各 种 原因 ， 这 种 方式 并 非 对 每 
个 人 都 现实 可 行 。 而 本 书 ， 正 希望 通过 这 种 口语 化 的 方式 与 读者 交流 ， 
尽量 实现 一 对 一 的 训练 效果 。 读 者 们 可 以 将 这 本 书 想 象 成 目 己 的 私人 家 
教 。 

第 二 ， 本 书 不 会 将 数学 基础 作为 单独 的 章节 列 出 来 ， 而 是 在 强化 学 
习 算 法 中 用 到 哪些 数学 ， 就 在 那个 章节 里 介绍 。 这 样 ， 吏 算是 没有 多 少 


数学 基础 的 读者 也 可 以 学 习 ; 而 对 于 那些 有 数学 基础 的 读者 ， 通 过 将 数 
学 与 具体 的 强化 学 习 算 法 相 结合 ， 可 以 提升 数学 的 应 用 能 

第 三 ， 本 书 的 每 部 分 都 包括 理论 讲解 ， 代 码 讲解 和 直观 解释 三 项 内 
容 。 强 化 学 习 算 法 是 应 用 性 很 强 的 算法 ， 大 部 分 谈 者 学 习 强 化 学 习 算 法 
的 目的 是 用 来 解决 实际 问题 的 。 一 边 学 理论 ， 一 边 写 代码 ， 可 以 使 读者 
在 学 习 的 过 程 中 ， 同 步 提 升 理 论 研 究 和 解决 问题 两 方面 的 能 

第 四 ， 本 书 泗 新 的 内 容 相 当 丰 十， 几乎 会 涉及 强化 学 习 算法 的 各 个 
方面 。 从 最 基础 的 强化 学 习 算 法 到 目前 最 前 治 的 强化 学 习 算 法 都 会 有 所 
涉猎 。 所 以 ， 本 书 可 以 说 是 “完全 ”教程 。 当 然 了 了 ， 这 里 所 谓 的 “完全 ?也 
只 是 相对 的 。 因 为 ， 强 化 学 习 算 法 当前 正 处 于 快速 发 展 中 ， 每 个 月 都 会 
有 新 的 突破 。 但 是 ， 强 化 学 习 的 基本 思想 是 不 会 那么 快 变 化 的 ， 最 新 的 
突破 都 是 基于 这 些 基 本 的 思想 而 来 。 所 以 ， 读 完了 本 书 ， 你 再 继续 读 最 
新 的 论文 ， 束 不 会 再 有 如 读 天 书 的 感 沉 了。 或 者 说 ， 读 完了 本 书 你 就 可 
以 参与 到 构建 能 改变 世界 的 伟大 算法 中 了 。 

我 们 再 回 到 刚才 的 问题 : 什么 是 强化 学 习 算 法 ? 

要 回答 这 个 问题 ， 必 须 先 回答 强化 学 习 可 以 解决 什么 问题 ， 强 化 学 
习 如 何 解 决 这 些 问题 。 


1.2 EF A AY ARAL ZT) jel 


如 图 1.1 所 示 是 强化 学 习 算 法 的 成 功 案 例 。 其 中 的 A 图 为 典型 的 非 线 
性 二 级 捍 系 统 。 该 系统 由 一 个 台 车 (黑体 矩形 表示 〉 MADE ACE 
杆 ) 组 成 ， 可 控制 的 输入 为 台 车 的 左右 运动 ， 该 系统 的 目的 是 让 两 级 摆 
稳定 在 竖 直 位 置 。 两 级 摆 问 题 是 非 线性 系统 的 经 典 问 题 ， 在 控制 系统 理 
论 中 ， 解 决 该 问题 的 基本 思路 是 先 对 两 级 摆 系 统 建立 精确 的 动力 学 模 
型 ， 然 后 基于 模型 和 各 种 非 线 性 的 理论 设计 控制 方法 。 一 般 来 说 ， 这 个 
过 程 非常 复杂 ， 需 要 深厚 的 非 线性 控制 理论 的 知识 。 而 且 ， 在 建 模 的 时 
候 需 要 知道 台 车 和 摆 的 质量 ， 摆 的 长 度 等 等 。 基 于 强化 学 习 的 方法 则 不 
需要 建 模 也 不 需要 设计 控制 器 ， 只 需要 构建 一 个 强化 学 习 算 法 ， 让 二 级 
摆 系 统 目 己 去 学 习 就 可 以 了 。 当 学 习 训 练 结 束 后 ， 二 级 摆 系 统 便 可 以 实 
现 目 平 衡 。 图 1.1 中 的 B 图 是 训练 好 的 AljphaGo 与 柯 涪 对 战 的 第 二 局 棋 ， 
C 图 则 为 机 右 人 在 仿真 环境 下 自己 学 会 了 从 控 倒 的 状态 息 起 来 。 这 三 个 
例子 能 很 好 地 说 明 ， 强 化 学 习 算 法 在 不 同 的 领域 能 够 取得 令 人 惊艳 的 纤 
果 。 当 然 ， 强 化 学 习 除 了 应 用 到 非 线 性 控制 、 下 棋 、 机 右 人 等 方 喇 ， 还 
可 以 应 用 到 其 他 领域 ， 如 视频 游戏 、 人 机 对 话 、 无 人 芍 驶 、 机 器 翻译 、 
文本 序列 预测 等 。 
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图 A 非 线 性 系统 二 级 倒立 摆 
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图 C 机 器 人 学 习 站 立 


图 1.1 强化 学 习 成 功 案例 
例子 是 举 不 完 的 ， 可 以 用 一 句 话 来 说 明 强 化 学 习 所 能 解决 的 问题 : 
智能 决 案 问题 。 更 确切 地 谨 是 序 叶 决策 问题 。 什 么 是 序 贯 决策 问题 昵 ? 
束 是 需要 连续 不 断 地 做 出 决 案 ， 才 能 实现 最 终 目 标的 问题 。 如 图 1.1 中 
图 A 的 二 级 摆 问 题 ， 它 需要 在 每 个 状态 下 都 有 个 智能 决策 《在 这 里 智能 
决策 是 指 应 该 施加 给 台 车 什么 方向 、 多 大 的 力 ) ， 以 便 使 整个 系统 逐渐 
收敛 到 目标 点 (也 就 是 两 个 摆 竖 直 的 状态 ) 。 图 B 中 的 AlphaGo 则 需要 
根据 当前 的 棋局 状态 做 出 访 下 哪个 子 的 决策 ， 以 便 最 得 比赛 。 图 C 中 ， 
机 促 人 需要 得 到 当前 状态 下 每 个 天 市 的 力 抢 ， 以 便 能 够 站 并 起 来 。 一 句 
话 概括 强化 学 习 能 解决 的 问题 : 序 贯 决策 问题 。 那 么 ， 强 化 学 习 是 如 何 
解决 这 个 问题 的 呢 ? 
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是 如 何 解 决 问题 的 。 从 解决 问题 的 角度 来 看 ， 监 督学 习 解 决 的 是 智能 感 
知 的 问题 。 

我 们 依然 用 一 个 图 来 表示 。 如 图 1.2 所 示 ， 监 督学 习 最 典型 的 例子 
是 数字 手写 体 识别 ， 当 给 出 一 个 手写 数学 时， 监督 学 习 需 要 判别 出 该 数 
字 古 多 少 。 也 就 是 说 ， 监 否 学 习 需 要 感知 到 当前 的 输入 到 搬 长 什么 样 ， 
当 智 能 体感 知 到 输入 长 什么 样 时 ， 智 能 体 束 可 以 对 它 进 行 分 类 了 。 如 图 
1.2 所 示 ， 输 入 手写 体 长 得 像 4， 所 以 乔 能 体 束 可 以 判断 它 是 4 fo 48 
能 感知 其 实 束 是 在 学 习 “ 输 入 ”长 得 像 什 么 “特征 〉， 以 及 与 设 长 相 一 一 
对 应 的 是 什么 《标签 ) 。 所 以 ， 特 能 感知 必 不 可 少 的 前 提 是 需要 大 量 长 
相差 异化 的 输入 以 及 与 输入 相关 的 标签 。 因 此 ， 监 督学 习 解决 问题 的 方 
法 就 是 输入 大 量 带 有 标签 的 数据 ， 让 智能 体 从 中 学 到 输入 的 抽象 特征 并 


分 其。 





图 1.2 强化 学 习 与 监督 学 习 的 区 列 


强化 学 习 则 不 同 ， 强 化 学 习 要 解决 的 是 序 员 决 寅 问题 ， 它 不 天 心 输 
入 长 什么 样 ， 只 天 心 当前 输入 下 应 该 米 用 什么 动作 才能 实现 最 终 有 的 日 
标 。 和 再 次 强调 ， 当 前 采用 什么 动作 与 最 终 的 目标 有 天。 也 融 是 说 当前 采 
用 什么 动作 ， 可 以 使 得 整个 任务 序列 达到 最 优 。 如 何 使 整个 任务 序列 达 
到 最 优 呢 ? aie AS eA A I GABA, Aisi, KAS Hes 
刚 开 始 也 不 知道 在 当前 状态 下 哪个 动作 有 利于 实现 目标 。 强 化 学 习 解 决 


问题 的 框 染 可 用 图 1.3 表 示 。 乔 能 体 通 过 动作 与 环境 进行 交互 时 ， 环 境 
会 返 给 乔 能 体 一 个 当前 的 回报 ， 乔 能 体 则 根据 当前 的 回报 评 信 有 所 采取 的 
动作 : 有 利于 实现 目标 的 动作 被 体 留 ， 人 不 利于 实现 目标 的 动作 被 腾 减 。 
有 具体 的 算法 ， 我 们 会 在 后 面 一 一 介绍 。 用 一 句 话 来 概括 强化 学 习 和 监督 
学 习 有 的 弄 同 后: 强化 学 习 和 监督 学 习 的 共同 点 是 两 痢 部 需要 大 量 的 数据 
进行 训练 ， 但 是 两 痢 所 十 要 的 数据 类 型 不 同 。 监 督学 习 需 要 的 是 多 样 化 
的 标签 数据 ， 强 化 学 习 需 要 的 是 市 有 回报 的 交互 数据 。 由 于 输入 的 数据 
类 型 不 同 ， 这 束 使 得 强化 学 习 算 法 有 它 目 己 的 获取 数据 、 利 用 数据 的 独 
特 方法 。 那 么 ， 都 有 哪些 方法 呢 ? 这 是 本 书 重 点 要 讲 的 内 容 。 在 进入 详 
细 的 讲解 之 前 ， 我 们 在 这 里 先 简单 地 了 解 下 这 些 强化 学 习 算 法 的 发 展 历 
史 。 
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图 1.3 强化 学 习 基 本 框架 

我 们 不 去 深 客 强化 学 习 算 法 的 具体 发 展 历史 ， 只 给 出 两 个 关键 的 时 
间 点 。 第 一 个 关键 点 是 1998 年 ， 标 志 性 的 事件 是 Richard S.Sutton 出 版 了 
他 的 强化 学 习 导 论 第 一 版 ， 即 Reinforcement Learning: An 
Introduction 〈 访 书 第 二 厂 的 中 文 碑 将 由 电子 工业 出 版 社 出 版 ) ， 访 书 系 
统 地 总 结 了 1998 年 以 前 强化 学 习 算 法 的 各 种 进展 。 在 这 一 时 期 强化 学 习 
的 基本 理论 框架 已 经 形成 。1998 年 之 前 ， 学 者 们 关注 和 发 展 得 最 多 的 算 
法 是 表格 型 强化 学 习 鼻 法。 当然 ， 这 一 时 期 基于 直接 策略 搜索 的 方法 也 
被 提出 来 了 。 如 1992 年 R.J.Williams 提 出 了 Rinforce 算 法 直接 对 策略 梯 
度 进 行 估计 。 第 二 个 关键 点 是 2013 年 DeepMind 提 出 DQN (Deep Q 
Network) ， 将 深度 网 络 与 强化 学 习 算 法 结合 形成 深度 强化 学 习 。 从 
1998 年 到 2013 年 ， 学 者 们 也 没 朵 痢 ， 有 发展 出 了 各 种 直接 党 略 搜索 的 方 
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家 的 注意 。 尤 其 是 2016 年 和 2017 年 ， 谷 歌 的 AlphaGo 连 续 两 年 击败 世界 
用 棋 冠 军 ， 更 是 将 深度 强化 学 习 推 到 了 风口 浪 尖 之 上 。 如 今 ， 深 度 强 化 
学 习 算 法 正在 如 火 如 茶 地 发 展 ， 可 以 说 正 是 百家争鸣 的 年 代 ， 或 许 再 过 
儿 年 ， 深 撒 强 化 学 习 技 术 会 越 来 越 普及 ， 并 发 展 出 更 成 熟 、 更 实用 的 算 
法 来 ， 我 们 拭目以待 。 


1.4 织 化 学 习 算 法 分 类 及 友 展 趋势 


已 有 的 强化 学 习 算 法 种 类 繁多 ， 一 般 可 按 下 列 几 个 标准 来 分 类 。 

CL) 根据 强化 学 习 算法 是 否 依赖 模型 可 以 分 为 基于 模型 的 强化 学 
习 算法 和 无 模型 的 强化 学 习 算法 。 这 两 类 算法 的 共同 点 是 通过 与 环境 交 
互 获得 数据 ， 不 同 点 是 利用 数据 的 方式 不 同 。 基 于 模型 的 强化 学 习 算法 
利用 与 环境 交互 得 到 的 数据 学 习 系统 或 者 环境 模型 ， 再 基于 模型 进行 序 
贯 决策 。 无 模型 的 强化 学 习 算法 则 是 直接 利用 与 环境 交互 获得 的 数据 改 
善 自身 的 行为 。 两 类 方法 各 有 优 缺 点 ， 一 般 来 讲 基 于 模型 的 强化 学 习 算 
法 效率 要 比 无 模型 的 强化 学 习 算法 效率 更 高 ， 因 为 智能 体 在 探索 环境 时 
可 以 利用 模型 信息 。 但 是 ， 有 些 根本 无 法 建立 模型 的 任务 只 能 利用 无 模 
型 的 强化 学 习 算 法 。 由 于 无 模型 的 强化 学 习 算 法 不 需要 建 模 ， 所 以 和 基 
于 模型 的 强化 学 习 算法 相 比 ， 更 具有 通用 性 。 

(2) 根据 策略 的 更 新 和 学 习 方法 ， 强 化 学 习 算法 可 分 为 基于 值 函 
数 的 强化 学 习 算法 、 基 于 直接 策略 搜索 的 强化 学 习 算法 以 及 AC 的 方 
法 。 所 谓 基于 值 函 数 的 强化 学 习 方 法 是 指 学 习 值 函数 ， 最 终 的 策略 根据 
值 函 数 贪 禁 得 到 。 也 就 是 说 ， 任 意 状态 下 ， 值 函数 最 大 的 动作 为 当前 最 
优 策 略 。 基 于 直接 策略 搜索 的 强化 学 习 算法 ， 一 般 是 将 策略 参数 化 ， 学 
习 实现 目标 的 最 优 参数 。 基 于 AC 的 方法 则 是 联合 使 用 值 函数 和 直接 策 
咯 搜索 。 具 体 的 算法 会 在 后 面 介绍 ， 

(3) 根据 环境 返回 的 回报 函数 是 否 已 知 ， 强 化 学 习 算法 可 以 分 为 
正 向 强化 学 习 和 逆向 强化 学 习 。 在 强化 学 习 中 ， 回 报 函 数 是 人 为 指定 
的 ， 回 报 函数 指定 的 强化 学 习 算法 称 为 正 向 强化 学 习 。 很 多 时 候 ， 回 报 
无 法 人 为 指定 ， 如 无 人 机 的 特效 表演 ， 这 时 可 以 通过 机 器 学 习 的 方法 由 
函数 自己 学 出 来 回报 。 

为 了 提升 强化 学 习 的 效率 和 实用 性 ， 学 者 们 又 提出 了 很 多 强化 学 习 
算法 ， 如 分 层 强化 学 习 、 元 强化 学 习 、 多 智能 体 强化 学 习 、 关 系 强化 学 
习 和 迁移 强化 学 习 等 。 这 些 主题 已 超出 了 本 书 的 范围 ， 读 者 若是 感 兴 
址 ， 可 在 阅读 完 本 书后 在 网 上 下 载 相 关内 容 阅读 。 

强化 学 习 尤 其 是 深度 强化 学 习 正在 快速 发 展 ， 从 当前 的 论文 可 以 初 
步 判断 强化 学 习 的 发 展 趋势 如 下 。 


第 一 ， 强 化 学 习 算 法 与 深度 学 习 的 结合 会 更 加 紧密 。 

机 器 学 习 和 锚 法 常 被 分 为 监督 学 习 、 非 监督 学 习 和 强化 学 习 ， 以 前 三 
类 方法 分 得 很 清楚 ， 而 如 今 三 类 方法 联合 起 来 使 用 效果 会 更 好 。 所 以 ， 
织 化 学 习 算 法 其 中 一 个 趋势 便 是 三 类 机 妖 学 习 方 法 在 逐渐 走 同 统一 的 道 
re. WEAK, VENTS ABER. AD RKN UE TREE E 
化 学 习 的 对 话 生 成 等 。 

第 二 ， 强 化 学 习 算 法 与 专业 知识 结合 得 将 更 加 紧密 。 

如 果 将 一 般 的 强化 学 习 算 法 ， 如 Qlearning BIA BRE SS We 
中 ， 很 可 能 不 工作 。 这 时 一 定 不 能 灰心 ， 因 为 这 是 正常 现象 。 这 时 需要 
把 专业 领域 中 的 知识 加 入 到 强化 学 习 算 法 中 ， 如 何 加 ?这 没有 统一 的 方 
法 ， 而 是 根据 每 个 专业 的 内 容 而 变化 。 通 党 来 说 可 以 午 新 塑造 回报 也 
数 ， 或 修改 网 络 结构 (大 家 可 以 开心 地 烁 丹 灌 水 了 @) 。 该 方 回 的 代表 
作 是 NIPS2016 的 最 住 论文 值 迭 代 网 络 (Value Iteration Networks) 等 。 

第 二 ， 强 化 学 习 算 法 理论 分 析 会 更 强 ， 算 法 会 更 稳定 和 局 效 。 

强化 学 习 宽 法 大 火 之 后 ， 必 定 会 吸引 一 大 批 理 论 功 搬 很 强 的 牛人 。 
XEADA T, BERERE, AREWA, MUE 
TIX PEALE A NUR, THD ES EDIE, EFE. 
WATT IA RSE OE TREE SRR TIE, (ARRAS IRA ST 
性 等 。 

第 四 ， 强 化 学 习 算 法 与 脑 科 学 、 认 知 神 经 科学 、 记 忆 的 联系 会 更 紧 

脑 科 学 和 认 知 神经 科学 一 直 是 机 帮 学 习 灵 感 的 产 果 ， 这 个 源 果 往往 

会 给 机 右 学 习 算 法 币 来 单 命 性 的 成 功 。 人 们 对 大 脑 的 认识 还 很 厂 面 ， 随 
独 脑 科学 家 和 认 知 神经 科学 家 逐步 揭 开 大 脑 的 神秘 面纱 ， 机 需 学 习 领 域 
必定 会 再 次 受益 。 这 个 流 小 应 该 是 以 DeepMind MEARKE FNA, 
因为 这 些 团 体 里 面 不 仪 有 很 多 人 工 和 留 能 学 家 还 有 很 多 认 知 神经 科学 家 。 
该 方 同 的 代表 作 如 DeepMind 关 于 记忆 的 一 列 论 文 。 


1.5 强化 学 习 仿 只 环境 构建 


学习 算法 的 共同 点 是 从 数据 中 学 习 ， 因 此 数据 是 学 习 算 法 最 基本 的 
组 成 元 素 。 监 千 学 习 的 数据 独立 于 算法 本 喘 ， 而 强化 学 习 不 同 。 强 化 学 
习 的 数据 是 智能 体 与 环境 的 交互 数据 ， 在 交互 中 智能 体 逐 渐 地 改善 行 
为 ， 产 生 更 好 的 数据 ， 从 而 学 会 拉 能 。 也 就 是 说 强化 学 习 的 数据 跟 算法 
是 交互 的 ， 而 非 独 立 的 。 因 此 ， 相 比 于 监督 学 习 只 构建 一 个 学 习 算 法 ， 
强化 学 习 还 需要 构建 一 个 用 于 与 智能 体 进 行 交 互 的 环境 。 

原则 上 来 襄 ， 几 是 能 提供 智能 体 与 环境 进行 交互 的 软件 都 可 以 用 来 
作为 训练 强化 学 习 的 仿真 环境 。 如 各 种 游戏 软件 ， 各 种 机 需 人 仿真 软 
件 。 这 些 仿 真 环 境 必 备 的 两 个 要 和 又 是 物理 引擎 和 图 像 引 擎 。 物 理 引 擎 用 
来 计算 仿真 环境 中 物体 是 如 何 运 动 的 ， 其 育 后 的 原理 是 物理 定律 ， 如 刚 
体 动 力学 ， 流 体力 学 和 和 柔性 体 动 力学 等 。 第 用 的 开源 物理 引擎 有 
ODE (Open Dynamics Engine) 、Bullet、Physx 和 Havok 等 。 图 像 引 擎 则 
用 来 显示 仿真 环境 中 的 物体 ， 包 括 绘 图 、 往 染 等 。 第 用 的 图 像 引 擎 大 都 
基于 OpenGL (Open Graphics Library) 。 

本 书 中 ， 我 们 使 用 的 仿真 环境 为 OpenAlI 的 
gym (https: //github.com/openai/gym) 。 选 用 gym 平 台 的 原因 有 三 : 

fac, gym 是 OpenAl 开发 的 通用 强化 学 习 算 法 测 斌 平台， 背后 有 
大 神 Pieter Abbeel、Sergey Levine 等 人 率领 的 强大 团队 的 文 持 。 

其 次 ， 学 会 了 gym 的 基本 应 用 ， 可 以 目 己 学 习 使 用 OpenAI 的 其 他 开 
源 强 化 学 习 软 件 ， 如 universe、roboschool 和 baselines 等 。 

再 次 ，gym 本 里 集成 了 很 多 仿真 环境 ， 如 经 典 控制 中 的 车 摊 环 境 ， 
小 车 爬山 环境 、 雅 达 利 游戏 、 棋 盘 环 境 等 。 利 用 这 些 与 好 的 环境 ， 可 以 
学 习 强 化 学 习 算 法 的 基本 原理 。 另 外 ，gym 是 用 Python 语言 写 的 ， 可 以 
和 深度 学 习 的 开源 软件 如 TensorFlow 等 无 颖 衔接 。 

下 面 ， 我 们 看 一 下 gym 在 Linux 系 统 下 的 安装 。 
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(1) 为 了 便于 管理 ， 需 要 先 装 Anaconda， 下 载 和 安装 步骤 如 下 。 


Q ”下 载 Anaconda 安 农 包 推荐 利用 清华 镜像 来 下 载 )， 下 载 地 
HE: 


https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive. 

笔者 安装 的 是 Anaconda3-4.3.0 版 本 。 

(2) 安装 Anaconda。 下 载 完成 Anaconda 后 ， 安 装 包 会 在 Downloads 文 
HEEB CER MAA Ctrl+Alt+T HAF IF Zim) =» 8A cd downloads, 
然后 键入 bash anaconda3 _4.3.0-linux-x86 64.sh (小 技巧 : 键入 bash an 然 
后 近 Tab 键 ，Linux 系 统 会 目 动 补 全 后 面 的 名 字 ) 

O ”安装 过 程 会 询问 是 否 将 路 公安 装 到 环境 变量 中 ， 刍 入 yes， 人 至 此 
Anaconda 安 装 完成 。 你 会 在 目录 /home/ 你 的 用 户 名 文件 夹 下 看 到 
Anaconda 3。 关 挥 终 问 ， 再 开 一 个 ， 这 样 环境 变量 才 起 作用 。 

(2) 利用 Anaconda 建 一 个 虚拟 环境 。 

Anaconda 创 建 虚 拟 环 境 的 格式 为 : conda create--name 你 要 创建 的 名 
字 Python= 上 和 版 本 号 。 比 如 我 创建 的 虚拟 环境 名 字 为 gymlab， 用 的 Python 
版 本 与 为 3.5， 可 这 样 写 : 

conda create--name gymlab python=3.5 


操作 完 此 步 之 后 ， 会 在 anaconda3/envs 文 件 夹 下 多 一 个 gymlab。 

Python3.5%t#Egymlab F Mlib LFX P - 
(3) gym. 

上 一 步 已 经 装 了 一 个 虚拟 环境 gymlab， 在 这 一 步 要 开始 应 用 。 先 开 
一 个 新 的 终端 ， 然 后 用 命令 source activate gymlab 激 活 虚 拟 环 境 ， 再 装 
gymo 具体 步骤 如 下 。 

D ## A. git clone https: //github.com/openai/gym.git， 将 gym 克 隆 到 计 
BALA. WRIA ROL PIA eit, ALAR) LEA: sudo apt install 
git， 先 安装 git。 

2) cd gym 进入 gym 文 件 夹 。 

(3) pip install-e“.[all]* 进 行 完 全 安装 。 等 每， 这 个 过 程 会 疙 一 系列 的 
库 ， 闭 完 后 可 以 将 gym ZR MAN ARS SRR, 一 种 方法 古 
打开 .bashrc 文件 ， 在 末尾 加 入 语句 : 

export PYTHONPATH= 你 的 gym 目 录 : $PYTHONPATH. 


ARES Ta, RAY Wea gym J 


WTS), WRB WSCA RI, EA ti sudo apt-get install- 
y python-numpy python-dev cmake zliblg-dev libjpeg-dev xvfb libav-tools 
xorg-dev python-opengl libboost-all-dev libsdl2-dev swig 


下 面 给 出 一 个 最 简单 的 例子 。 
D ” 开 一 个 终 六 (ctrtalttt) ， 然 后 激活 用 Anaconda 建 立 的 虑 拟 环 


Se; source activate Gymlab; 
(2) 运行 Python: python; 
(3) 导入 Gym 模 块 : import gym; 
(4) 创建 一 个 小 车 倒立 摆 模 型 : env=gym.make (‘CartPole-v0’) ; 
© 初始 化 环境 : env.reset; 
©) 刷新 当前 环境 ， 并 显示 : env.render () 。 
通过 这 6 步 ， 我 们 可 人 如 图 1.4 所 示 。 








图 1.4 gym 中 的 CartPole 系 统 
1.5.2 深入 剖析 gym 环 场 构建 


本 蔬 我 们 将 从 上 一 小 节 的 末尾 开始 讲 三 个 重要 的 函数 : 
env = gym.make(‘CartPole-v0’) 
env.reset() 


env.render() 


第 一 个 图 数 是 创建 环境 ， 我 们 会 在 第 2 章 具 体 介 绍 如 何 创 建 目 己 的 
环境 ， 所 以 这 个 函数 暂时 不 讲 。 第 二 个 函数 env.reset O 和 第 三 个 函数 
env.render () 是 每 个 环境 文件 都 包含 的 水 数 。 我 们 以 Cartpole 为 例 ， 讲 
解 这 两 个 函数 。 

Cartpole 的 环境 文件 位 置 : 你 的 gym 目 
5K/gym/envs/classic_control/cartpole.py. 

该 文件 定义 了 一 个 CartPoleEnv 的 环境 类 ， 访 美的 成 员 函 数 有 : 
seed () ~ step (©) ~ reset () 和 render O 。 上 一 小 节 末 尾 demo 中 调用 
的 束 是 CartPoleEnv 的 两 个 成 员 函 数 reset () 和 render O ， 我 们 先 讲 讲 
这 两 个 图 数 ， 再 介绍 step ©) PHBL. 

1.reset () A ZUE fi 

reset ) 为 重新 初始 化 函数 ， 它 有 什么 作用 呢 ? 

在 强化 学 习 算 法 中 ， 智 能 体 需 要 一 次 次 地 答 试 并 宗 积 经 验 ， 然 后 从 
经 验 中 学 到 好 的 动作 。 每 一 次 尝试 我 们 称 之 为 一 条 轨迹 或 一 个 episode， 
每 次 答 试 都 要 到 达 终 止 状态 。 一 次 答 试 结束 后 ， 千 能 体 需 要 从 头 开 始 ， 
这 残 需要 千 能 体 具 有 重新 初始 化 的 功能 。 国 数 reset O Wiz H RBA 
的 。 

reset ©) 的 涯 代 伍 : 

eer resect) 

self.state = self.np random.uniform(low=-0.05, high=0.05, 
size=(4,)) 

self.steps beyond done = None 

return np.array(self.state) 

第 2 行 代码 是 利用 均匀 随机 分 布 初试 化 环境 的 状态 ， 第 3 行 代码 是 设 
置 当 前 步 数 为 None。 第 4 行 ， 返 回环 境 的 急 始 化 状态 。 

2.render () 最 数 详解 

render (©) 函数 在 这 里 扮 淘 图 像 引 擎 的 角色 。 我 们 知道 一 个 仿真 环 
境 必 不 可 少 的 两 部 分 是 物理 引擎 和 图 像 引 擎 。 物 理 引 人 擎 模拟 环境 中 物体 
的 运动 规律 ， 图 像 引 擎 用 来 显示 环境 中 的 物体 图 像 ， 其 实 ， 对 于 强化 学 
习 算 法 而 言 ， 可 以 没有 render ©) 图 数 ， 但 是 ， 为 了 便于 直观 录 示 当前 
环境 中 物体 的 状态 ， 图 像 引 擎 还 是 有 必要 的 。 另 外 ， 加 入 图 像 引 擎 可 以 


方便 我 们 调试 代码 。 下 面具 体 介 绍 gym 如 何 利 用 图 像 引擎 来 创建 图 像 。 

我 们 直接 看 源 代码 : 

Del renderse; moae=" mman y close—False) ; 
LE 01056: 

.... 并 省 略 ， 直 接 看 关键 代码 部 分 : 
if self.viewer is None: 
trom GyM.snvs.claseie control 1mpert Tendering 
# 这 一 句 导 入 rendering 模块 ， 利 用 rendering 模块 中 的 画图 图 数 进 行 图 形 的 绘制 
# 如 绘制 600*400 的 窗口 函数 为 
self.viewer = rendering.viewer (screen width, screen height) 
其 中 screen width=600, screen height=400 
# 创 建 小 车 的 代码 为 
1,r,t,b = -cartwidth/2, cartwidth/2, cartheight/2, -cartheight/2 
axleoffset =cartheight/4.0 
Cart. = rendering, FalledPolygon([({1,5), (Lte (2,0), (@,6)]) 

其 中 rendering.FilledPolygon 为 填充 一 个 窍 形 。 

创建 完 cart 的 形状 ， 接 下 来 给 cart 添 加 平移 属性 和 旋转 属性 。 将 车 的 
位 移 设 置 到 cart ”的 平移 属性 中 ，cart ”就 会 根据 系统 的 状态 变化 左右 运 
动 。 笔 者 已 将 具体 代码 解释 上 传 全 github: 
https: //github.com/gxnk/reinforcement-learning-code， 想 深入 了 解 的 同学 
可 去 下 载 学 习 。 

3.step () PRATER 

本 函数 在 仿真 占 中 扮演 物理 引擎 的 角色 。 其 输入 是 动作 a， 输 出 
fe: 下 一 步 状态 、 立 即 回 报 、 是 否 终 止 、 调 试 项 。 它 描述 了 壤 能 体 与 环 
境 交 互 的 所 有 信息 ， 是 环境 文件 中 最 重要 的 图 数 。 在 本 图 数 中 ， 一 般 利 
用 智能 体 的 运动 学 模型 和 动力 学 模型 计算 下 一 步 的 状态 和 立即 回报 ， 并 
判断 是 含 达到 终止 状态 。 

我 们 直接 看 源 代码 : 


def step(self, action) ; 
assert self.action space.contains(action), "5r (5S) 
invalid"% (action, type (action) ) 
State = self.state 
x, x dot, theta, theta dot = state # 系 统 的 当前 状态 
force = self.force mag 1f action==1 else -self.force mag 


# 输 入 动作 ， 即 作用 到 车 上 的 力 


costheta = math.cos(theta) ERIZ pk BY 
sintheta = math.sin(theta) # 15% PR a 


# 底 下 是 车 摆 的 动力 学 方程 式 ， 即 加 速度 与 动作 之 间 的 关系 
temp = (force + self.polemass length * theta dot * theta dot 
* sintheta) / self.total mass 


thetaacc = (self.gravity * sintheta - costheta* temp) / 
(self.length * (4.0/3.0 - self.masspole * costheta * costheta / 
self.total mass) ) # 搂 的 角 加 速度 


xacc = temp - self.polemass length * thetaacc * costheta / 
self.total mass  #/) EF 6 IK 

x =x + seli.tau * x dot 

x dot = x dot. + self.tau * xacc 

theta = theta + selt.tau * theta dot 

theta dot = theta dot + self.tau * thetaacc # 积 分 求 下 一 

self.state = (x,x dot,theta,theta dot) 


TRET gym FEMME, SA WER ON RASS. RII 
会 在 第 2 草 癌 大 家 展示 一 个 完整 的 基于 gym 的 新 环境 构建 过 程 。 


16 本 书 主要 内 容 及 安排 


强化 学 习 是 线性 代数 、 概 率 论 、 运 筹 学 、 优 化 、 信 息 论 等 多 学 科 交 
又 的 一 门 学 科 ， 从 上 个 世纪 九 十 年 代 基 本 理论 体系 形成 后 的 近 二 十 年 
H, REHE SSS PEA RYE. REIRE ae ES >) FEARS 
的 概念 和 算法 ， 因 此 在 写作 过 程 中 遵循 了 两 条 线索 。 第 一 条 线索 是 强化 
学 习 的 基本 算法 ， 第 二 条 线索 是 强化 学 习 算 法 所 用 到 的 基础 知识 。 

我 们 先 介绍 第 一 条 线索 : ESE RR EP RR ea, 
一 般 的 序 员 决策 问题 可 以 利用 马尔 科 夫 决 案 过 程 的 框架 来 表述 ， 因 此 在 
Qe PITA SSR RRR, BY MDP。 蕊 尔 科 夫 决 策 过 程 能 
够 用 数学 的 形式 将 要 解决 的 问题 摘 述 清楚 ， 这 也 是 为 什么 在 介绍 强化 学 
习 时 首先 要 讲 MDP 的 原因 。 

利用 MDP 将 问题 形式 化 后 ， 束 需要 找到 解决 MDP 问 题 的 方法 。 对 
于 模型 已 知 的 MDP 问题 ， 动 态 规划 是 一 个 不 错 的 解 。 因 此 在 第 3 AR 
们 会 介绍 基于 动态 规划 的 强化 学 习 算 法 ， 并 由 此 引出 三 义 划 上 略 达 代 的 方 
法 。 广 义 策 略 欠 代 方法 不 仅 适 用 于 基于 模型 的 方法 ， 也 适用 于 无 模型 的 
方法 ， 是 基于 值 函 数 强化 学 习 算 法 的 基本 框架 。 因 此 ， 第 3 章 是 第 4 章 基 
于 花 特 卡 罗 方 法 、 第 5 章 基 于 时 间 差 分 方法 和 第 6 曹 基于 值 国 数 通 近 方法 
的 基础 。 

无 模型 的 强化 学 习 算法 是 整个 强化 学 习 算法 的 核心 ， 而 基于 值 函 数 
的 强化 学 习 算 法 的 核心 是 计算 值 困 数 的 期 望 。 值 函数 是 个 随机 变量 ， 其 
期 望 的 计算 可 通过 桶 特 卡 多 的 方法 得 到 。 因 此 ， 第 4 章 我 们 介绍 了 基于 
RIFF MEERY AIE. 

基于 蒙特 卡 罗 的 强化 学 习 算法 通过 蒙特 卡 罗 模 拟 计 算 期 时， 该 方法 
需要 等 到 每 次 试验 结束 后 再 对 值 冰 数 进行 估计 ， 收 征 速 上 度 慢 。 时 间 堪 分 
的 方法 则 只 需要 一 步 便 更 新 ， 效 率 高 、 收 敛 速 度 快 。 因 此 第 5 章 我 们 对 
时 则 差分 方法 进行 了 详细 介绍 。 

第 4 章 到 第 5 章 介 绍 的 是 表格 型 强化 学 习 。 所 谓 表 格 型 强化 学 习 是 指 
状态 空间 和 动作 空间 都 是 有 限 集 ， 动 作 值 冰 数 可 用 一 个 表格 来 接 述 ， 表 
格 的 索引 分 别 为 状态 量 和 动作 量 。 但 是 ， 当 状态 空间 和 动作 空间 很 大 ， 
其 至 两 个 空间 都 是 连续 空间 时 ， 动 作 值 函 数 已 经 无 法 使 用 一 个 表格 来 搬 


i, CIN AY WAFS es cet BE ve OE eS CET a. KERIMINE 
了 基于 值 函 数 逼 近 的 强化 学 习 算法 。 

强化 学 习 算 法 的 第 二 大 类 是 直接 条 略 搜索 方法 。 所 谓 直 接 角 略 搜索 
TIREI ARKET EAM, AESAAT HARR RRR. HE 
策略 搜索 方法 中 ， 最 简单 最 直接 的 方法 是 琳 略 梯度 的 方法 。 在 第 7 草 ， 
我 们 评 细 介绍 了 条 略 梯 上 度 理 论 。 

基于 案 略 村 上 度 方 法 最 具 挑 战 性 的 是 更 新 步 长 的 确定 ， 厂 是 更 新 步 长 
KK, RARIK: 更 新 步 长 太 小 ， 收 敛 速 度 又 很 慑 。TRPO 的 方法 
通过 理论 分 析 得 到 单调 非 递 减 的 荣 略 更 新 方法 。 第 8 章 我 们 对 TRPO 进 行 
了 详细 推导 和 介绍 。 

当 动 作 空 间 维 数 很 高 时 ， 匆 能 体 的 探索 效率 会 很 低 ， 利 用 确定 性 案 
略 可 免除 对 动作 空间 的 探索 ， 提 升 算 法 的 收敛 速度 ， 第 9 章 对 确定 性 委 
略 搜索 进行 了 详细 介绍 。 

第 7 半 到 第 9 革 ， 我 们 介绍 的 是 无 模型 的 直接 策略 搜索 方法 。 对 于 机 
AS RAR AS, FORAY ATE REAL) aa A ESR Bl A KE 
法 难以 收敛 。 这 时 ， 可 以 利用 传统 控制 器 来 引导 策略 进行 搜索 。 因 此 第 
10 章 介 绍 了 其 于 引导 束 略 搜索 的 强化 学 习 算 法 。 

在 很 多 实际 问题 中 ， 人 往往 不 知道 回报 函数 。 为 了 学 习 回 报 函 数 ， 第 
11 ENA SS ARE. 

从 第 12 章 开始 ， 我 们 介绍 了 最 近 发 展 出 来 的 强化 学 习 算 法 ， 分 别 是 
第 12 间 的 组 合 策略 梯度 和 值 函 数 方法 ， 第 13 章 的 值 迭 代 网 络 和 第 14 章 的 
PILCO 方 法 及 其 扩展 。 

第 二 条 线索 是 强化 学 习 算 法 所 用 到 的 基础 知识 。 

我 们 在 第 2 章 介 绍 了 概率 学 基础 。 强 化 学 习 中 最 重要 的 概念 是 随机 
策略 ， 因 此 在 介绍 概率 学 基础 之 后 ， 对 随机 策略 的 基本 概念 进行 了 详细 
讲解 。 

当 模 型 已 和 时 ， 值 函数 的 求解 可 以 转化 为 线性 方程 组 的 求解 。 在 第 
3 章 ， 我 们 介绍 了 线性 方程 组 的 数值 求解 方法 一 一 高 斯 - 赛 德尔 欠 代 法 ， 
并 利用 时 变 与 泛 函 分 析 中 的 压缩 映射 证 明了 算法 的 收 勾 性 。 

在 强化 学 习 算 法 中 ， 值 图 数 是 昧 积 回报 的 期 望 。 利 用 采样 数据 计算 
期 望 是 统计 学 讨论 的 主题 。 统 计 学 中 的 重要 技术 ， 如 重要 性 采样 、 拒 绝 





性 采样 和 MCMC 方法 都 可 用 于 强化 学 习 算 法 中 。 我 们 在 第 4 章 介 绍 了 这 
些 基 础 知识 。 

在 基于 函数 逼近 的 强化 学 习 中 ， 不 同 的 函数 青 近 方法 被 应 用 到 强化 
学 习 算 法 中 。 我 们 在 第 6 章 介 绍 了 基本 的 函数 通 近 方法 : 基于 非 参 数 的 
国 数 逼近 和 基于 参数 的 函数 和 逼近。 在 基于 参数 的 函数 逼近 中 ， 我 们 重点 
介绍 了 神经 网 络 ， 尤 其 是 卷 积 神经 网 络 ， 因 为 卷 积 神经 网 络 是 DQN 及 其 
变种 算法 的 基础 。 

在 TRPO 中 ， 答 代目 标 函 数 用 到 了 信息 论 的 箭 和 相对 和 烂 的 概 您 ， 后 
时 TRPO 的 求解 需要 用 到 各 种 优化 算法 ， 因 此 在 第 8 章 我 们 介绍 了 基本 的 

音 恩 论 概 念 和 基本 的 优化 方法 。 

引导 策略 搜索 强化 学 习 的 优化 目标 用 到 了 KL 散 度 和 变 分 推理 ， 以 
及 大 型 的 并 行 优 化 算法 ， 因 此 ， 我 们 在 第 10 章 介绍 了 大 型 监督 算法 负 用 
的 LBFGS 优 化 算法 ， 及 其 学 习 中 的 并 行 优化 算法 ADMM 算 法 和 KEL 散 度 
及 从 分 推理 。 

读者 在 阅读 本 书 时 ， 可 依照 章节 顺序 阅读。 在 过 到 相关 概念 时 可 先 
阅读 访 章 币 的 数学 知识 ， 通 过 数学 知识 帮助 理解 强化 学 习 的 内 容 。 


2 RELA AR RRL AE 
2.1 马尔 科 夫 决策 过 程 理论 讲解 


图 2.1 解 释 了 强化 学 习 的 基本 原理 。 智 能 体 在 完成 某 项 任务 时 ， 首 
先 通过 动作 A 与 周围 环境 进行 交互 ， 在 动作 A 和 环境 的 作用 下 ， 吞 能 体 
会 产生 新 的 状态 ， 同 时 环境 会 给 出 一 个 立即 回报 。 如 此 循环 下 去 ， 重 能 
体 与 环境 不 断 地 交互 从 而 产生 很 多 数据 。 强 化 学 习 算 法 利用 产生 的 数据 
修改 目 且 的 动作 沫 略 ， 再 与 环境 交互 ， 产 生 新 的 数据 ， 并 利用 新 的 数据 
进一步 改善 日 里 的 行为 ， 经 过 数 钦 达 代 学 习 后 ， 入 能 体能 最 终 学 到 完成 
相应 任务 的 最 优 动 作 〈 最 优 东 上 略 〉。 


EREM 观 新 

测 的 
Ph - 从 
R S 


状态 转移 概率 P(Se+1|5e, a) 
图 2.1 强化 学 习 基 本 框架 
从 强化 学 习 的 基本 原理 能 看 出 它 与 其 他 机 上 寓 学 习 宽 法 如 监督 学 习 和 
非 监 督学 习 的 一 些 基 本 差 列 。 在 监督 学 习 和 非 监 督学 习 中 ， 数 据 是 静态 
的 、 不 需要 与 环境 进行 交互 ， 比 如 图 像 识 别 ， 只 要 给 出 足够 的 弄 弄 样 
本 ， 将 数据 得 入 深度 网 络 中 进行 训练 即 可 。 然 而 ， 强 化 学 习 的 学 习 过 程 
征 动态 的 、 不 断交 互 的 过 程 ， 所 需要 的 数据 也 征 通 过 与 环境 不 断 区 互 所 
产生 的 。 所 以 ， 与 监督 学 习 和 非 监 督学 习 相 比 ， 强 化 学 习 涉 及 的 对 象 更 
多 ， 比 如 动作 ， 环 境 ， 状 态 转 移 概 率 和 回报 函数 等 。 强 化 学 习 更 像 是 人 
的 学 习 过 程 : 人 交通 过 与 周围 环境 交互 ， 学 会 了 走路 ， 奔 跑 ， 萎 动人 
类 与 大 目 然 ， 与 宇宙 的 交互 创造 了 现代 文明 。 为 外 ， 深 度 学 习 如 图 像 识 
别 和 语音 识别 解决 的 是 感知 的 问题 ， 踢 化 学 习 解 决 的 是 决 案 的 问题 。 人 
工 乔 能 的 终极 目的 是 退 过 感知 进行 乔 能 决策 。 所 以 ， 将 近年 友 展 起 来 的 


深度 学 习 技 术 与 强化 学 习 算 法 结合 而 产生 的 深 大 强化 学 习 算 法 是 人 类 实 
现 人 工 神 能 终极 目的 的 一 个 很 有 前 景 的 方法 。 

无 数学 者 们 通过 几 十 年 不 断 地 努力 和 探索 ， 提 出 了 一 套 可 以 解决 大 
部 分 强化 学 习 问 题 的 框 染 ， 这 个 框架 就 是 马 尔 科 夫 决策 过 程 ， 人 简称 
MDP。 下 面 我 们 会 循序 渐进 地 介绍 瑟 尔 科 夫 决策 过 程 ， 先 介绍 瑟 尔 科 夫 
性 ， 再 介绍 马尔 科 夫 过 程 ， 最 后 介绍 马尔 科 夫 决策 过 程 。 

1. 第 一 个 概念 是 马尔 科 夫 性 

所 谓 马 尔 科 夫 性 是 指 系统 的 下 一 个 状态 st+1 仅 与 当前 状态 st 有 天， 
而 与 以 前 的 状态 无 天 。 

定义 : 状态 st 是 马尔 科 夫 的 ， 当 且 仅 当 P[st+1 Ist ]=P[st+1 |51 > -> 
St l- 

定义 中 可 以 看 到 ， 当 前 状态 st 其 实 是 强 含 了 所 有 相关 的 历史 信息 s1 
，...，St， 一 旦 当前 状态 已 知 ， 历 史 信 息 将 会 外 抛 莽 。 

马尔 科 夫 性 描述 的 是 每 个 状态 的 性 质 ， 但 真正 有 用 的 是 如 何 描述 一 
个 状态 序列 。 数 学 中 用 来 换 述 随机 变量 序列 的 学 科 叫 随机 过 程 。 所 谓 随 
机 过 程 克 是 指 随机 变量 序列 。 大 随机 变量 序列 中 的 每 个 状态 都 是 马尔 科 
夫 的 ， 则 称 此 随机 过 程 为 马尔 科 夫 随机 过 程 。 

2. 第 二 个 概念 是 马尔 科 夫 过 程 

马尔 科 夫 过 程 的 定义 : 马尔 科 夫 过 程 是 一 个 二 元 组 (S, P), HI 
ke: S 是 有 限 状 态 集 合 ，P 是 状态 转移 概 识 。 状 态 转 移 概 计算 阵 为 : 

站 Fin 
P=): i ;| 。 下 面 我 们 以 一 个 例子 来 进行 阐述 。 

Fn 1 Em 


如 图 2.2 所 示 为 一 个 学 生 的 7 种 状态 { 娱 乐 ， 读 程 1， 诛 程 2， 诛 程 3， 
考 过 ， 上 睡觉， 论文 }， 每 种 状态 之 间 的 转换 概率 如 图 所 示 。 则 访 生 从 谍 
程 1 开始 一 天 可 能 的 状态 序列 为 : 

课 1- 课 2- 课 3- 考 过 -睡觉 

课 1- 课 2- 睡 觉 

以 上 状态 序列 称 为 马尔 科 夫 链 。 当 给 定 状态 转移 概率 时 ， 从 某 个 状 
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进行 交互 ， 并 从 环境 中 获得 奖励 ， 而 瑟 尔 科 夫 过 程 中 不 存在 动作 和 奖 

励 。 将 动作 束 略 〉 和 回报 考虑 在 内 的 马尔 科 夫 过 程 称 为 马尔 科 夫 决 束 


过 程 。 








图 2.2 马尔 科 夫 过 程 示例 图 

3. 第 三 个 概念 是 马尔 科 夫 决策 过 程 

马尔 科 夫 决策 过 程 由 元 组 (S，A，P，R，yY) 描述 ， 其 中 : 

S 为 有 限 的 状态 集 

A 为 有 限 的 动作 集 

P 为 状态 转移 概率 

R 为 回报 函数 

y 为 折扣 因子 ， 用 来 计算 累积 回报 。 

注意 ， 跟 马尔 科 夫 过 程 不 同 的 是 ， 马 尔 科 夫 决策 过 程 的 状态 转移 概 
KEURDER, RPS, = P|[Sm =s lo =s,A=a|。 


举 个 例子 如 图 2.3 所 示 。 





图 2.3 马尔 科 夫 决策 过 程 示例 图 
图 2.3 为 蕊 尔 科 夫 决 策 过 程 的 示例 图 ， 图 2.3 与 图 2.2 对 应 。 在 图 2.3 
中 ， 学 生 有 五 个 状态 ， 状 态 集 为 S={s] ，s? ，s3 ，s4 ，Ss5 p JERN 
A={ 玩 ， 退 出 ， 学 习 ， 有 发 表 ， 睡 党 }， 在 图 2.3 中 立即 回报 用 R 标 记 。 
强化 学 习 的 目标 是 给 定 一 个 马尔 科 夫 决 案 过 程 ， 寻 找 最 优 策略 。 所 
请 案 略 是 指 状态 到 动作 的 映 册 ， 开 上 略 和 常用 人 符号 7 表示， 它 古 指 给 定 状 态 s 
上 时， 动作 和 集 上 的 一 个 分 布 ， 即 


x(als)=p|4,=al|S,=s| (2.1) 


这 个 公式 是 什么 意思 呢 ? 策略 的 定义 是 用 条 件 概率 分 布 给 出 的 。 我 
相信 ， 一 涉及 概率 公式 ， 大 部 分 人 都 会 心里 咯 哈 一 下 ， 排 斥 之 情 油 然而 
生 。 但 是 ， 要 想 完全 掌握 强化 学 习 这 门 工具 ， 概 率 公式 必 不 可 少 。 只 有 
学 握 了 概率 公式 ， 才 能 真正 领会 强化 学 习 的 精髓 。 关 于 概率 的 知识 看 本 
章 第 二 节 。 

简单 解释 下 概率 在 强化 学 习 中 的 重要 作用 。 首 先 ， 强 化 学 习 的 策略 
往往 是 随机 策略 。 采 用 随机 策略 的 好 处 是 可 以 将 探索 耦合 到 采样 的 过 程 
中 。 所 谓 探索 是 指 机 器 人 尝试 其 他 的 动作 以 便 找到 更 好 的 策略 。 其 次 ， 
在 实际 应 用 中 ， 存 在 各 种 噪声 ， 这 些 噪声 大 都 服从 正 态 分 布 ， 如 何 去 掉 
这 些 噪声 也 需要 用 到 概率 的 知识 。 

言 归 正 传 ， 公 式 (2.1) 的 含义 是 ; 策略 r 在 每 个 状态 s 指 定 一 个 动作 
概率 。 如 果 给 出 的 策略 是 确定 性 的 ， 那 么 策略 在 每 个 状态 s 指 定 一 个 


确定 的 动作 。 

例如 其 中 一 个 学 生 的 策略 为 rf 〈 玩 |ls1 ) =0.8， 是 指 该 学 生 在 状态 
s1 时 玩 的 概 京 为 0.8， 人 不 玩 的 构 京 是 0.2， 喧 然 这 个 学 生 更 哮 欢 玩 。 

另外 一 个 学 生 的 策略 为 r? (Dils ) =0.3， 是 指 该 学 生 在 状态 s1 时 
玩 的 概率 是 ”0.3， 显 然 这 个 学 生 不 爱 玩 。 依 此 类 推 ， 每 个 学 生 都 有 目 己 
的 策略 。 强 化 学 习 是 找到 最 优 的 束 上 略 ， 这 里 的 最 优 是 指 得 到 的 中 回报 最 
大 。 

当 给 定 一 个 东 略 nr 时， 我 们 束 可 以 计算 累积 回报 了 。 背 完 定义 乏 积 
回报 : 


G, = Rm +y Ra2 += 》 yE Raka (22) 
k=0 


当 给 定 策略 ni 时 ， 假 设 从 状态 sl 出 发 ， 学 生 状 态 序列 可 能 关 
S|? 89 —? fa > Bg BS 
S| =F So -F Sa SS Be 


此 时 ， 在 策略 r 下 ， 利 用 〈2.2) 式 可 以 计算 累积 回报 G1 ， 此 时 G1 
有 多 个 可 能 值 。 由 于 策略 r 是 随机 的 ， 因 此 累积 回报 也 是 随机 的 。 为 了 
评价 状态 s1 的 价 仁 ， 我 们 需要 定义 一 个 大 定量 来 搞 述 状态 s1 的 价值 ， 
很 目 然 的 想法 是 利用 累积 回报 来 衡量 状态 s1 «ME. A, AAR 
G1 是 个 随机 变量 ， 不 是 一 个 确定 值 ， 因 此 无 法 摘 述 ， 但 其 期 望 是 个 确 
定 值 ， 可 以 作为 状态 值 函 数 的 定义 。 

(1) 状态 值 函数 。 

当知 能 体 采 用 策略 rn 时 ， 索 积 回 报 服 从 一 个 分 布 ， 辕 积 回 报 在 状态 s 
处 的 期 己 值 定义 为 状态 - 值 函 数 : 


Uz [sj=E, braze |S; =s (23) 
p= 


注意 : ASE BoE RETR VEN, Re AVA RETE S RIR 
回报 G 的 状态 分 布 。 


Al2.456 5 2.370 ARAM PA. BF ae tb BPE SAY 
ZAA PAVE RR. BU: vq (sy ) =2.3, Uq (so ) =-1.3, v_ CS3 ) 
=2.7, Uq (sq) =7.4, vA (ss ) =0 





tals) = 0.5,y = 1 0.2 


图 2.4 状态 值 函数 示意 图 
相应 地 ， 状 态 -行为 值 函 数 为 


dx (s,a) = Px Èr Raen |S; = S, A, = a (2.4) 


k=0 
(2.3) AM (2.4) ADIA B SIRSE eR AK AS-77 AE KR 
定义 计算 式 ， 但 在 实际 真正 计算 和 编程 的 时 候 并 不 会 按照 定义 式 编 程 。 
接 下 来 我 们 会 从 不 同 的 方面 对 定义 式 进行 解读 。 
(2) 状态 信函 数 与 状态 -行为 全 图 数 的 贝尔 受 方 程 。 
由 状态 值 函 数 的 定义 式 (2.3) 可 以 得 到 : 
v(s)=E|G,|S, =s] 
= E| Res bY Rouges | Sy =s| 
= E| Ri +y (Riz +7 Rag t+) |S, =s | (2.5) 
= E| Ress +yG | Sy = s | 


= E| Rist + yo (Sra ) |S; = s | 


(2.5) 式 最 后 一 个 等 号 的 证 明 : 


V(S,) =E,, (R(t+1) +7yG(5,,))) 
=E,(R(t+1) + 4E,,,,,. (G(S:41))) 
= £,(RE+1) + W(Si41)) 
= E(R(t+1) + W(Si41)) 
这 里 需要 注意 的 是 对 哪些 变量 求 期 望 。 
同样 我 们 可 以 得 到 状态 -动作 值 函 数 的 贝尔 曼 方程 : 
qz (s,a)= Ez | Ron +74 (Siis Ani) |S; =s, 4: =a | (2.6) 
状态 值 函数 与 状态 -行为 值 函数 的 具体 推导 过 程 如 下 。 


图 2.5 和 图 2.6 分 别 为 状态 信函 数 和 行为 值 函 数 的 具体 计算 过 程 。 其 
中 衬 心 圆圈 表示 状态 ， 实 心 圆 圈 表 示 状 态 - 行 为 对 。 
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图 2.5 状态 值 函数 的 计算 示意 图 
图 2.5 为 值 浮 数 的 计算 分 解 示 意图 ， 图 2.5B 计 算 公 式 为 
vz (s)= > 7 (als)gr(s,a) (2.7) 


acA 
RJ2.5B th ASE RRA SIRAS-1T AME RARR. B2.5CrH RAR 
态 -行为 全 函数 为 


qx (5,4) )= Re +y Fs (2.8) 


将 (2.8) RRA (2.7) 式 可 以 得 到 : 


j= > (ls) Re 47D peo 6 (2.9 ) 


acA 


S'ES 


n(S, a) -5,0 u,(s') = 5! 


ll 


qz(s,a)ea 





图 2.6 状态 -行为 值 函 数 计 算 


在 2. i 

= Lala a'|s')qnz(s',a') (2.10) 
将 (2.10) RA (2.8) 中 ， 得 到 状态 -行为 值 函数 : 
an(sa)=Ri ty) P, s2 z(a a'|s'\qz(s',a") (2.11) 


AK (2.9) 可 以 在 图 2.4 中 进行 验证 。 选 择 状 态 s4 处 。 由 图 2.4 知 道 
v (sq) =7.4， 由 公式 (2.9) 得 

v(s4)=0.5*(1+0.2*(—1.3)+0.4*2.7 +0.4*7.4)+0.5*10 = 7.39 

保留 一 位 小 数 为 7.4。 

计算 状态 值 冰 数 的 目的 是 为 了 构建 学 习 算 法 从 数据 中 得 到 最 优生 


略 。 每 个 稼 略 对 应 着 一 个 状态 值 范 数 ， 最 优 宋 略 目 然 对 应 看 了 最 优 状 态 什 
pA BL o 


(s) WERA RIE HEENA HE K, 


定义 ;最 优 状态 值 函数 u 
(s, a) WEMA KR 


即 vv (s)=maxv,(s) ， 最 优 状态 -行为 值 函 数 q* 
咯 中 最 大 的 状态 -行为 值 函数 ， 即 


1 (s,a)= max q,(s,a) 
我 们 由 (2.9) 式 和 “(2.11) 式 分 别 得 到 最 优 状态 值 函 数 和 最 优 状 
态 -行动 值 函 数 的 贝尔 曼 最 优 方程 : 


v* (s)=max R +7 2 Pow"(s') (2.12) 


s'eS 
q’ (s,a)= R? +y È, Pa. max, q* (s',a') (2.13) 
S EN 
硅 已 知 最 优 状 态 -动作 值 商 数 ， 最 优 策略 可 通过 直接 最 大 化 q Cs, 
a) 来 决定 。 
1 if a=argmax gq:(s,a) 
(2.14) 


ri- acA 


0 otherwise 
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Fk, RIEM J A EASE 1 BY Sy OR BR IED ZH EB 
现在 该 对 强化 学 习 算 法 进行 形式 化 摘 述 了 。 

我 们 定义 一 个 离散 时 间 有 限 范 围 的 折扣 马尔 科 夫 雇 策 过 程 M= CS, 
A, P, r, pp ，Y，T) ， 其 中 $ 为 状态 集 ，A 为 动作 集 ，P: SxAxS—R 
ERK, r: SXA=[-Rmax> Rmax ] 为 立即 回报 函数 ，po : SR 是 
初始 状态 分 布 ，ye[0，1] 为 折扣 因子 ，T 为 水 平 沁 围 (其实 就 是 步 
BL) 。1 为 一 个 轨迹 序列 ， 即 T= (sg, ag, s1, al ，.…) ， 累 积 回报 为 


T 

R=》 yn ， 强 化 学 习 的 目标 是 找到 最 优 策略 xr， 使 得 该 策略 下 的 累积 
t=0 

回报 期 望 最 大 ， 即 max | R(c)p.(c)dz 


2.2 MDP 中 的 概率 学 基础 讲解 


本 市 解释 公式 (2.1) 随机 保 略 的 定义 。 在 强化 学 习 算 法 中 ， 随 机 
条 略 得 到 广泛 应 用 ， 因 为 随机 宋 略 籼 合 了 探索。 后 面 要 介绍 的 很 多 强化 
学 习 算 法 的 策略 都 采用 随机 策略 ， 所 以 ， 很 有 必要 理解 什么 是 随机 策 
略 。 随 机 策略 常用 符号 表示 ， 它 是 指 给 定 状 态 s 时 动作 和 集 上 的 一 个 分 
布 。 要 理解 分 布 首先 要 理解 随机 变量 [2] 。 

(1) 随机 变量 。 

随机 变量 是 指 可 以 随机 地 取 不 同 值 的 变量 ， 和 常用 小 写字 母 表 示 。 在 
MDP 中 随机 变量 指 的 是 当前 的 动作 ， 用 字母 0 表示 。 在 图 2.3 的 例子 
中 ， 随 机 变量 4。 可取 的 值 为 “ 玩 ”“ 退 出” “学 习 ” “人 发表” 和 “睡觉 ”。 
随机 变量 可 以 是 离散 的 也 可 以 是 非 离散 的 ， 在 该 例子 中 随机 变量 是 离散 
的 。 有 了 随机 变量 ， 我 们 就 可 以 揪 述 概率 分 布 了 。 

(2) 概率 分 布 。 

概率 分 布 用 来 摘 述 随机 变量 在 每 个 可 能 取 到 的 值 处 的 可 能 性 大 小 。 
离散 型 随机 变量 的 概率 分 布 常用 概率 质量 函数 来 描述 ， 即 随机 变量 在 离 
散 点 处 的 概率 。 连 续 型 随机 变量 的 概率 分 布 则 用 概率 密度 函数 来 描述 。 
在 图 2.3 的 例子 中 ， 指 定 一 个 末 略 7 WETS Ee ARE PONTE IE 


(3) 条 件 概率 。 

Hehe Cals) 是 条 件 概率 。 条 件 概率 是 指 在 其 他 事件 上 友 生 时 ， 我 们 
所 关心 的 事件 所 发 生 的 概率 。 在 我 们 的 例子 中 Tals) 是 指 在 当前 状态 
处 ， 采 取 某 个 动作 & 的 概率 。 当 给 定 随机 变量 后 ， 状 态 s 处 的 累积 回报 


G(s) 也 是 随机 变量 ， 而 且 其 分 布 由 随机 策略 7 决定 。 状 态 值 函数 定义 
为 该 累积 回报 的 期 望 。 下 面 我 们 再 看 看 期 望 和 方差 的 概念 。 

(4) HEMDE. 

函数 1(Z) 关于 某 分 布 己 (Z) 的 期 望 是 指 ， 当 x 由 分 布局 (z) 产生 、 
f 作用 于 xX 时 ， f(z) 的 平均 值 。 对 于 离散 型 随机 变量 ， 期 望 公式 为 


BE,p[f(z)] = 》 P(2) f(a) 
对 于 连续 型 随机 变量 ， 期 望 通过 积分 求 得 


E,-plf (x) ] = J p(x) f(x)dx 
期 望 的 运算 是 线性 的 ， 妈 
E,laf(7z) + Bg(2)] =aE,|f(x)] + BE,[Lg(z)| 

期 望 的 线性 运算 在 后 面 的 很 多 推导 中 都 会 用 到 。 

SIJ e 

J AM eA) 5 A OREN, ORME SEEN AV), aH a 
下 公式 得 到 : 

Var(f(7)) =E[(f(z) — ELf(7z)1)") 

从 定义 我 们 可 以 看 到 ， 方 过 越 小 ， 有 采样 值 离 均值 越 近 ， 不 确定 性 越 

小 。 尤 其 是 方 和 很 小 时 ， 有 采样 值 都 集中 在 均值 附近 ， 因 此 不 确定 性 很 小 


(这 时 ， 你 猜测 采样 信和 古 均 伍 ， 那 么 该 猜测 离 实际 采样 点 很 近 ) 。 方 状 
的 平方 根 被 称 为 标准 震 。 有 了 均值 和 方 赤 ， 我 们 现在 束 可 以 谈 一 谈 在 强 


化 学 习 中 最 第 用 的 概率 分 布 了 。 
最 音 用 的 概率 分 布 也 束 是 最 冲 用 的 随机 策略 。 
C1) RERE. 
| if a=argmax gq:(s,a) 
Tx (a | s) = 


acA 


0 otherwise 
AE Rie E TERK, BU RAEES Ig» (s, a) 
最 大 的 动作 处 取 概 率 1， 选 其 他 动作 的 概率 为 0。 
(2) e-greedytK Hg « 


E€ = 
l~e+ Tr if a=argmax,Q(s,a) 


n (als) + 


IO if a#argmax,Q(s,a) 


g-greedy 策 略 是 强化 学 习 最 基本 了 最 利用 随机 策略 。 其 含义 是 选取 使 
得 动作 值 函 数 最 大 的 动作 的 概率 为 1 一 = 十 [CT ， 而 其 他 动作 的 概率 


为 等 概率 ， 都 为 TCD 。 -greedy Fi y PJH Cexploitation) 和 探索 


(exploration) , A PARS FERAE EBA AA, RSE OL 
动作 仍 有 概率 为 探索 部 分 。 

(3) 高 斯 宋 略 。 

一 般 高 斯 策略 可 以 写成 To 二 jw 十 Ee, e~N(0,07) . Hit bo 为 确定 
性 部 分 ，& 为 零 均值 的 蜗 斯 随机 噪声 。 融 斯 傈 略 也 平衡 了 利用 和 探索 ， 
其 中 利用 由 确定 性 部 分 完成 ， 探 索 由 & Wo a TSR EEE FR SY 
Mo J PIV) iz. 

(4) PIR SAAR o 

对 于 动作 空间 是 是 离散 的 或 者 动作 空间 并 不 大 的 情况 ， 可 采用 玻 尔 
效 曼 分 布 作 为 随机 策略 ， 即 


exp (Q(s,a,9)) 
> exp (h(s,b, 0) ) 

其 中 Q(s,a,0) 为 动作 值 函 数 。 该 策略 的 含义 是 ， 动 作 值 函 数 大 的 
动作 被 选中 的 概率 大 ， 动 作 值 函数 小 的 动作 被 选中 的 概率 小 。 


2.3 基于 gym 的 MDP 实 例 讲解 


本 市 我 们 以 机 右 人 找 人 金币 为 例子 ， 构 建 其 MDP 框 染 。 

如 图 2.8 所 示 为 机 各 人 找 金 币 的 例子 。 访 网 格 世 界 一 共 8 个 状态 ， 其 
中 状态 6 和 状态 8 是 死亡 区 域 ， 状 态 7 是 金币 区 域 。 机 器 人 的 初始 位 置 为 
网 格 世 界 中 的 任意 一 个 状态 ， 机 带 人 从 初 怒 状 态 出 及 寻找 金币 ， 机 右 人 
每 探索 一 次 ， 进 入 死亡 区 域 或 找到 金币 ， 本 次 探索 结 


T(als,0) = 
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图 2.8 Hla A RE P 

f£2.1 SEAT OA TE MSP RPA AR E. | EAT ANE S OR BY 
夫 决 策 过 程 由 元 组 (5, 4,P,R,7Y) 来 描述 。 下 面 我 们 将 机 器 人 找 金 币 的 例 
子 建 模 为 MDP。 

状态 空间 : S= {1,2,3,4,5,6,7, 8) ; 动作 空间 : 
A=; Pa, DE, J6) ， 状 态 转 移 概 率 为 机 器 人 的 运动 方程 ， 回 报 函 
BON: 找到 金币 的 回报 为 1， 进入 死亡 区 域 的 回报 为 -1， 机 如 人 在 状态 1 
一 5 之 则 转换 上 时， 回报 为 0。 

下 和 面 ， 我 们 基于 gym 构 建 机 器 人 找 金 币 的 gym 坏 境 。 

一 个 gym 的 环境 文件 ， 其 主体 十 个 类 ， 在 这 里 我 们 定义 类 名 为 : 
GridEnv， 其 初始 化 为 环境 的 基本 参数 ， 该 部 分 代码 在 
https: /Wgithub.com/gxnk/reinforcement-learning-code 的 grid_mdp.py 文 件 


H. RITA FIRRA. 
状态 空间 : 
selfi.states = [1,2,3,4, 5,6, /,8] 


动作 空间 : 
self.actions = ['n','e','s', 'w'] 
回报 函数 : 
self.rewards = dict(); # 回报 的 数据 结构 为 字典 
pelt ewarde(*L a'] = =le® 
self .rewards(*S s'] = 1.0 
Seli .cewares ("5 6°] = —1.0 
状态 转移 概率 : 
self.t = dict(); # 状 态 转移 的 数据 格式 为 字典 
seli BI" a'l = 6 
sells. M Bt] = g 
self .t([*2 w'] = 1 
self, ("2 e'] = 2 
selit- Els s'l = 7 
LL S w = 2 
self. t["3 e'] = 4 
SellR EDS W] = 3 
sel BR 4 e'l] = 5 
self.t['5 s'] = 8 
self.t['5 w'] 4 


有 了 状态 空间 、 动 作 空间 和 状态 转移 概率 ， 我 们 便 可 以 写 step (a) 
函数 了 。 这 里 特别 要 注意 的 是 ，step O 函数 的 输入 是 动作 ， 输 出 是 下 
一 个 时 刻 的 动作 、 回 报 、 是 人 否 终 止 和 调试 信息 。 尤 其 前 要 注意 不 要 弄 错 
了 输出 的 顺序 。 对 于 调试 信息 ， 可 以 为 空 ， 但 不 能 缺少 ， 人 否则 会 报 钳 ， 
wH RRE. RITA MIRI - 


aef step(self, action): 
# 系 统 当前 状态 
state = self.state 
# 判 断 系 统 当前 状态 是 含 为 终止 状态 
LE state ian selt.berminate staves: 
return state, 0, True, {} 
key = "%d %s"S(state, action)  ，# 将 状态 和 动作 组 成 字典 的 键 人 
# 状 态 转 移 
LE key in self.t: 
Next, Stace = selt.ClKey] 


else: 

HSR Brace = Srece 
selrl.state = Next. state 
is terminal = False 


1f next state af Gell. terminate states: 


1s terminal = True 

if key not in self.rewards: 
r = 0.0 

else: 
r = self.rewards[key] 


return next state, r,1is_ terminal, {} 
step O RAIA te. RIMS Zea render O 
图 数 。 从 图 2.8 机 项 人 找 金 币 的 示意 图 我 们 可 以 看 到 ， 网 格 世 界 是 由 一 
些 线 和 圆 组 成 的 。 因 此 ， 我 们 可 以 调用 rendering 中 的 画图 男 数 来 绘制 这 
些 图 像 。 
整个 图 像 是 一 个 600x400 的 窗口 ， 可 用 如 下 代码 实现 : 
from gym.envs.classic control import rendering 


self.viewer = rendering.Viewer (screen width, screen height) 


创建 网 格 世 界 ， 一 共 包 括 11 条 直线 ， 事 先 算 好 每 条 直线 的 起 点 和 
终点 坐标 ， 然 后 绘制 这 些 耳 线 ， 代 人 码 如 下 : 


# 创 建 网 格 世 界 


self.linel = rendering.Line((100,300), (500,300) ) 

self.line2 = rendering.Line((100, 200), (500, 200) ) 
self.line3 = rendering.Line((100, 300), (100, 100) ) 
self.line4 = rendering.Line((180, 300), (180, 100) ) 
self.line5S = rendering.Line((260, 300), (260, 100) ) 
self.lineo = rendering.Line((340, 300), (340, 100) ) 
self.line/y = rendering.Line((420, 300), (420, 100) ) 
self.line8 = rendering.Line((500, 300), (500, 100) ) 
self.line9 = rendering.Line((100, 100), (180, 100) ) 
self.linelO = rendering.Line((260, 100), (340, 100)) 
self.linell = rendering.Line((420, 100), (500, 100) ) 


fe ROR GEC XK eh, BOTA ER SE a CET KK, MARAN 
F: 


HUER — NH 

self, kulol = rendéering.make circle (4Q) 

self.circletrans = rendering.Transform(translation=(140,150) ) 
self. kulol jla (self.circletrans) 

Sell. SUL. Ser Color {0 0,0) 

+ fil) <2 7 

self: kulo: = rendering.make circle (40) 

self.circletrans = rendering.Transform(translation=(460, 150)) 
self. kuloz.agd attr {self circletrans) 

self.kuloz.set color(0, 0, 0) 


创建 金币 区 域 ， 用 浅 色 的 圆圈 来 表示 : 
# 创 建 金 币 
self.gold = rendering.make circle (40) 
self.circletrans = rendering.Transform(translation=(300, 150)) 


self.gold.add, attr (self.circletrans) 
seli,.gold.set color {i;r Uso, Y) 


PEHLA. FUNK PAH ERRAND La A, AS RIE KRAE R 
区 域 不 同 ， 我 们 可 以 设置 不 同 的 颜色 : 


# 创 建 机 器 人 

seli. ropot- pnendering.make ClrELe(20) 
self.robotrans = rendering.Transform() 
Sell «r6boreaGd SCCE (Sell. FObo trans) 
上 二 EDGE SEt COLO {0.8; V.0; Va) 


创建 完 之 后 ， 给 11 条 直线 设置 闫 色 ， 并 将 这 些 创 建 的 对 象 添 加 到 
几何 中 ， 代 人 码 如 下 : 


EL Bet BOLGE (Dy Oy 0) 
self. LINSZ. Set Goler(0, OQ, Q) 
self.lines.set coler(Q, OQ, U) 
selfe line4.<s6t caelor(O; Ue U) 
Belt. LIDES. et COlGr(O, Oy O] 
salt. LLIGS. Set Golor(0, U, U) 
self.line/y.set eolor(0, Uz 0) 
gelt lines.set color(Ur Uy U} 
Belt. LEVY. Bat COLO (Uy Uy 0) 
S61f.1ineLO.6et Color | 0, 0) 
self.linell.w.set eolor(0, 0, 0) 


selt.«viewers,add geom(selt.,linel 
BelT.Viewer.add geon(selr.lines 
sell.Vilewer.add gecom (sell. lanes 


selt.viewer.add geom(selt.lines 


( ) 
( ) 
( ) 
self.s.viewer.add geom (self: lines) 
( ) 
selT.Viewer.add geom(selr.lines) 
selt.viewer.add geom (self. Line’) 
sel.f.viewer.add geom (self .Lined) 
selit.viewer,add gseom(selr.line9) 
Se lL .wiewer..add geom (sali: LITEN) 
( 


sell. Viewer.add geom (sell .1LiEll, 


selt.viewer.add geom (sels. kuled) 
self.viewer.add geom (self; kuloz) 
self .viewer.add geom (selt: geld) 

( 


selt.viewer.add geom (salt. robot) 


接 下 来 ， 开 始 设置 机 器 人 的 位 置 。 机 器 人 的 位 置 根据 其 当前 所 处 的 
状态 不 同 ， 所 在 的 位 置 也 不 同 。 我 们 事先 计算 出 每 个 状态 点 机 右 人 位 置 
的 中 心 坐 标 ， 并 存储 到 两 个 同 量 中 ， 在 美 初 始 化 中 给 出 : 

self.x=[140,220, 300, 380, 460,140, 300, 460] 
sa lEs y=(2590,2500, 200, 290, 250, 150, 190, 150] 

根据 这 两 个 同 量 和 机 磊 人 当前 的 状态 ， 我 们 残 可 以 设置 机 需 人 当前 
的 圆心 坐标 J ’ BI 

if self.state is None: return None 

self.robotrans.set translation (selt.x[selft.state-1], 
self.y[self.state- 1]) 

Hi Jia Fg E — AAR 加 语句 
return self.viewer.render (return rgb array=mode == ‘rgb array") 

以 上 便 完 成 了 render O 函数 的 建立 。 

下 面 我 们 再 看 一 下 reset O 函数 的 建立 。 

reset () PRA AS SEAL EGR Las ARRAS, BH 

der weseu(séeli) 

self.state = self.states [int (random. random () 
len(self.states) ) | 
return self.state 

BARS BY LL. _Egithub FFA. RE a a a ea 
的 环境 ， 以 便 通 过 gym 的 标准 形式 进行 调用 。 其 实 环境 的 注册 很 和 窗 单 ， 
只 需要 三 步 ， 分 述 如 下 。 

第 一 步 ， 将 我 们 目 己 的 环境 文件 (笔者 创建 的 文件 名 为 
grid_mdp.py) 找 由 到 你 的 gym 安 装 目 好/gym/gym/envs/classic_control X 
件 夹 中 〔( 拨 贝 在 此 文件 夹 中 是 因为 要 使 用 rendering 模 块 。 当 然 本 方法 并 
不 是 唯一 的 ， 也 可 以 采用 其 他 办 法 。) 。 

第 二 步 ， 打 开设 文件 来 (第 一 步 中 的 文件 来 ) 下 的 _ init pyx 
件 ， 在 文件 末尾 加 入 语句 : 


from gqym.envs.classic control.grid map Import GridEnv 


第 三 步 ， 进 入 文件 夹 的 gym 安 装 上 日 录 /gym/gym/envs， 打 开 该 文件 夹 


PHJ init pyx, NIRAS: 
register ( 
1d='GridWorld-v0', 
entry pPolnt="gqym.érnvs classic control :Crd ; 
max episode steps=200, 
reward threshold=100.0, 
) 
第 一 个 参数 id 就 是 你 调用 gym.make (‘id’) 时 的 id， 这 个 id 可 以 随便 
选取 ， 笔 者 取 的 名 字 是 GridWorld-v0。 
第 二 个 参数 吏 是 函数 路 口 了 ， 后 面 的 参数 原则 上 来 说 可 以 不 必 与 。 
经 过 以 上 三 步 ， 束 完成 了 注册 。 和 下面， 我们 用 一 个 简单 的 demo 来 
MA PRIR o 
BIKA SA cer, AIBU P o 
source activate gymlab 
python 
env = 
env.reset () 
env.render () 


SIS {T Ja R BL 2.9 ATA CR o 


gym.make ('GridWorld-v0') 
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图 2.9 机 器 人 找 金币 仿真 环境 


2.4 习题 


1. REL RNE SRB RAR TILE A EX Fill 
2. EN LACHES HY FEAR o 

3. 安 痛 gym 并 测试 其 中 的 CartPole 实 例 。 

4. 基 于 gym 构 建 如 下 迷宫 世界 : 





3 基于 模型 的 动态 规划 方法 
3.1 基于 模型 的 动态 规划 方法 理论 


上 一 章 我 们 将 强化 学 习 的 问题 纲 入 到 马尔 科 夫 次 案 过 程 的 框架 下 解 
决 。 一 个 完整 的 已 知 模型 的 马尔 科 夫 决策 过 程 可 以 利用 元 组 (S，A， 
P, r y 来 表示 。 其 中 S$ 为 状态 集 ，A 为 动作 集 ，P 为 转移 概 京 ， 也 束 古 
对 应 看 环境 和 智能 体 的 模型 ，r 为 回报 函数 ，y 为 折扣 因子 用 来 计算 累积 


T 
回报 R。 累 积 回 报 公式 为 R= 》y'n ， 其 中 0<y<1， 当 T 为 有 限 值 时 ， 强 
f=) 
化 学 习 过 程 称 为 有 限 范围 强化 学 习 ， 当 T=w 时 ， 称 为 无 穷 范围 强化 学 
习 。 我 们 以 有 限 沁 围 强 化 学 习 为 例 进 行 讲解 。 
强化 学 习 的 目标 是 找到 最 优 策略 nt 使 得 囚 积 回报 的 期 望 最 大 。 所 请 
策略 是 指 状态 到 动作 的 映射 r: sa， 用 Tt 表示 从 状态 s 到 最 终 状 态 的 一 个 
序列 fr: st ，st+1 :…，ST ， 则 索 积 回报 R (tTt) 是 个 随机 变量 ， 随 机 变量 
无 法 进行 优化 ， 无 法 作为 日 标 也 数 ， 我 们 灯 用 随机 变量 的 期 望 作为 目标 
KAO BIR (Tt) pr O ”dt 作 为 目标 疯 数 。 用 公式 来 表示 强化 学 习 的 


目标 ， max | R(T)pz (7)dr 。 强 化 学 习 的 最 终 目标 是 找到 最 优 策略 为 


: su ， 我 们 看 一 下 这 个 表达 式 的 直观 含义 。 
如 图 3.1 所 示 ， 节 优 策略 的 目标 是 找到 决策 序列 zxo Duy >ur , 


因此 从 广义 上 来 讲 ， 强 化 学 习 可 以 归结 为 序 芮 决 案 问题 。 即 找到 一 个 决 
守 序 列 ， 使 得 目标 函数 最 优 。 这 里 的 目标 函数 月 (1) pn (tT) dÆ 
积 回 报 的 期 望 什 ， 素 积 回报 的 含义 是 评价 妥 略 完成 任务 的 总 回报 ， 所 以 
AAPA TIES. GEA AN BOW A pe eR, Ae 
好 地 完成 任务 。 回 报 函 数 对 应 看 其 体 的 任务 ， 所 以 强化 学 习 所 学 到 的 最 
优 稼 略 是 与 具体 的 任务 相对 应 的 。 从 这 个 意义 上 来 说 ， 蝇 化 学 习 并 不 是 
万 能 的 ， 它 无 法 利用 一 个 算法 实现 所 有 的 任务 。 


图 3.1 序 员 决策 示意 图 

MI SEG, GRA cE RE al el. (BP RRR eS A 
REEE. EMMA SRE AWN SR, i ASE SORBATE 
WR. FEE, FON CASS Ee Ya A BY SOREL HR ITEMDP 
的 框架 之 内 。 马 尔 科 夫 决 案 过 程 可 以 利用 元 组 (S, A, P, r, y) 来 摘 
述 ， 根 据 转移 概率 P 是 否 已 知 ， 可 以 分 为 基于 模型 的 动态 规划 方法 和 基 
于 无 模型 的 强化 学 习 方 法 ， 如 网 3.2 所 示 。 两 种 类 别 都 包括 策略 欠 代 算 
法 ， 值 欠 代 算法 稼 略 搜索 算法 。 不 同 的 是 ， 在 无 模型 的 强化 学 习 方 法 
中 ， 每 类 算法 又 分 为 online 和 offline 两 种 。online 和 offline 的 具体 含义 ， 
我 们 会 在 下 一 和 章 中 详细 介绍 。 
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马尔 科 夫 决策 过 程 MDP (S,A,P,R,y) 





(S,A,P,R,y) 


ainda 无 模型 的 强化 学 习 广 法 


(S,A,P? R? y? ) 


amet} (mar) am} Cae) (mee 


ATH T AREA Ra IA EAM BIA Bt 
i 
图 32 如 化 学 习 分 天 
基于 模型 的 强化 学 习 可 以 利用 动态 规划 的 思想 来 解决 。 顾 名 思 义 ， 

动态 规划 中 的 “动态 ” 缠 含 看 序列 和 状态 的 变化 ;“ 规 划 ” 缠 含 看 优化 ， 如 
线性 优化 ， 二 识 优 化 或 者 非 线性 优化 。 利 用 动态 规划 可 以 解雇 的 问题 需 
要 满足 两 个 条 件 : 一 是 整个 优化 问题 可 以 分 解 为 多 个 子 优化 问题 二 是 
子 优化 问题 的 解 可 以 锐 和 存储 和 章 复 利用 。 前 面 已 经 讲 过 ， 强 化 学 习 可 以 
利用 瑟 尔 科 夫 决策 过 程 来 换 述 ， 利 用 贝尔 曼 最 优 性 原理 得 到 贝尔 曼 最 优 


化 方程 : 
v* (s) = max R? +y 2 Pv" (s') 
a s'eS 
q'(s,a)= Re +y 2 Pe maxa q’ (s'a') 


s'eS 


(3.1) 


从 方程 《3.1) PA WABI, SRB AR GET TT B18 oS 
HADR, Aa AA H SARRERA RAR ARLE | pe 

DURST RE (3.1) 指出 ， 动 态 规 划 的 核心 是 找到 最 优 值 隙 数 。 那 
么 ， 第 一 个 问题 是 : 给 定 一 个 策略 r， 如 何 计算 在 策略 r 下 的 值 函 数 ? 其 
实 上 和 草 己 经 讲 过 ， 此 处 再 重复 一 通 ， 如 图 3.3 所 未 : 





Wr(S) = SC) 


A 


Ur (S) e s’ & ce Ea 





图 3.3 值 函 数 计 算 过 程 
图 中 上 部 大 方 框 内 的 计算 公式 为 
V, (s)= 2 7(als)g (s,a) (32) 
该 方程 表示 ， 在 状态 s 处 的 值 函 数 等 于 采用 策略 nr 时 ， 所 有 状态 - 行 
为 值 疯 数 的 咏 和 。 下 面 小 方 框 的 计算 公式 为 状态 -行为 值 疯 数 的 计算 : 


qa (s,a)= RE +7 Pto, (s‘) (435 


该 方程 表示 ， 在 状态 s 采 用 动作 a 的 状态 值 函数 等 于 回报 加 上 后 续 状 
态 信函 数 。 


将 方程 (3.3) 代入 方程 (3.2) PEIRE ALY TT ES zh: 
vz (s)= > z(a] oz: +7 > Pau, (e) (3.4) 
acA s'eS 
状态 s 处 的 值 函 数 ur (s) , ADA FOS Ze AS IIE itu, (s') 来 
表示 。 可 是 有 人 会 说， 后 继 状 态 的 值 函数 vn- Gs) 也 是 未 知 的 ， 那 么 怎 


Avr HARASS IVER, RANE CORA OS? 如 图 3.4 所 示 。 没 
错 ， 这 正 是 bootstrapping 算 法 〈 自 举 算法 ) ! 





图 3.4 目 举 示意 图 
如 何 求解 〈3.4) 的 方程 ? 首先 ， 我 们 从 数学 的 角度 去 解释 方程 
(3.4) 。 对 于 模型 已 知 的 强化 学 习 算 法 ， 方 程 (3.4) PRPS, ya RY 


都 是 已 知 数 ，T Cals) Ae ARI ETRE, HEC. WHE 
(3.4) 中 唯一 的 未 知 数 是 值 困 数 ， 从 这 个 角度 理解 方程 (3.4) 可 知 ， 
方程 (3.4) 是 关于 值 函 数 的 线性 方程 组 ， 其 未 知 数 的 个 数 为 状态 的 总 
数 ， 用 |S| 来 表示 。 


此 处 ， 我 们 使 用 融 斯 -村 德尔 从 代 算法 进行 求解 。 即 : 


va (s)= Trols) Re+7 Peol) (3.5) 


acA s'eS 
高 斯 - 赛 德尔 迭代 法 的 讲解 请 参看 3.2 节 。 建 议 读者 先 去 学 习 和 了 解 
高 斯 - 赛 德尔 迭代 法 再 回来 继续 学 习 。 下 面 我 们 给 出 案 略 评 佑 算法 的 伪 
代码 ， 如 图 3.5 所 示 : 
策略 评估 算法 
[1] 输入 : 需要 评估 的 策略 状态 转移 概率 Ps, 回报 尔 数 Re ， 折 扣 因 子 y 
[2] 初始 化 值 毅 数 : V(s) = 0 
一 次 状态 He 
[3] Repeat k=0,1,... 次 状态 扫 指 


[4] for every s do 


[5] veri(s) = 》 (als) (es ty). rs) 


SIES 


QE4 





[8] 输出 : v(s) 
图 3.5 策略 评估 算法 的 伪 代 码 

需要 注意 的 是 ， 每 次 迭代 都 需要 对 状态 集 进行 一 次 遍历 (扫描 以 
便 评 佑 每 个 状态 的 值 函 数 。 

接 下 来 ， 我 们 举 个 策略 评估 的 例子 。 

如 图 3.6 所 示 为 网 格 世 界 ， 其 状态 空间 为 S={1，2，...，14}， 动 作 
空间 为 A={ 东 ， 南 ， 西 ， 北 }， 回 报 函 数 为 r=-1， 需 要 评估 的 菏 略 为 均匀 
哨 机 策略 ; 


n(A Fa) = PEAS h |:)=0.25 zx( 1:)=0.25 æ( |-)=0.25 







Ts 
十 [se 
[also 





12113114 | 


图 3.6 网 格 世 界 
图 3.7 为 值 困 数 迭代 过 程 中 信函 数 的 变化 。 为 了 进一步 说 明 ， 我 们 
举 个 具体 的 例子 ， 如 从 K=1 到 K=2 时 ， 状 态 1 处 的 值 函数 计算 过 程 。 
(0.0 |-1.0|-1.0 |-10 
10/10) 10-10 





-1.0|-1.0 | -1.0 | 0.0 


K=1 


oo 24]20 [30 





a 24] 20] 30/29 
20/20] 20|17| 20) a0] 20/24 
20:20|17/00] [so/20|-24[00 


K=2 K=3 








图 3.7 (eek ok CP M A 
HAR 3.5) 得 到 : 
v61)=0.25* CD-1 DO0.2Y {D-10.25* -1-1 #.25* - 1+0 =0.25* -7 =-1.75 
保留 两 位 有 效 数 字 便 是 -1.7。 
计算 值 函 数 的 日 的 是 利用 值 疯 数 找 到 最 优 朱 上 略 。 第 二 个 要 解决 的 问 
ee: 如 何 利 用 值 孙 数 进行 休 上 略 改善 ， 从 而 得 到 最 优 策略 ? 
一 个 很 自然 的 方法 古 当 已 知 当 前 策略 的 值 函 数 时 ， 在 每 个 状态 采用 


从 村 策略 对 当前 策略 进行 改善 ， 即 14 (8) ©aremax q” (5,2) 


如 图 3.8 给 出 了 信 杨 条 略 示 音 图。 图 中 虚线 为 最 优 策略 选择 。 
Ur(S) 全 SC 






a 
Rs 


s,Q > qr(s, a) 


qn(s,0) = RE +y 》 Pe, vn(s) 


SIES 


图 3.8 贪 禁 策略 计算 
ANS. SII AS PITT PETE Ft GES FM A ANS Al. RIALS A 
fF Bl] ASE HY A ER : 


m (1) = arg max {q (1, 东 ),q (1, 南 )，g(1， 西 ),q(1, 北 ) 


=arg max {-1-8.4,-1-7.7,-1+0, -1-6.1}={ 西 } 


r 均匀 策略 : 十 n, ARSENE 


co ES 





-90|-84|-61|00| [也 | 一 | 一 |00 


图 3.9 方 格 世界 贪 楚 策 略 选取 
全 此 ， 我 们 已 经 给 出 了 宋 略 评 合算 法 和 有 策略 改善 算法 。 万 事 己 共 


fr KERR DE Th YA A ORK OS YE ERE H RR IA RG, OU 
图 3.10 所 示 。 
策略 迭代 算法 
[1 输入 : 状态 转移 概率 RBs, 回报 函数 RR ， 折 扣 因 子 Y 
AAA: V(s) = 0 初始 化 策略 mo 


[2] Repeat 1=0,1,... 
[3] find V™ Policy evaluation 
[4] M141(S) E argmax q™(s,a) Policy improvement 


[5] Until Ts+i = Mı 
[6] 输出 : m=, 
图 3.10 SRNR IE RZ 
EMR IA RG LFS R E VE a A RR Oe NR. ER AP, 
Ze KE RK, TIS AUB IA TREAT RAR REEMA, A 
HZA PRI Ge FE RKE BUT SRS. UU RAE, RAS RR 
RS. IRE PS R CONC EAE o 
OO AN3.11 TAN A eB OE, SRR DP eh A SS he eG BI 
DUE PRIA © ARRIR TAT Be a Bll, ETT RMR ZO m EG a 
WCNC AN TEL PKI AMC (E PKI BSCE USC STE TE m BAIR & RIKEN, DME H Id el EE FT 
R E NCE A re ES Bl) SS TL PR OA CI ? 


V =V" 
y” 


m = greedy(V) 
图 3.11 16 A BOYS 
对 于 这 个 问题 ， 我 们 还 是 完 看 一 个 例子 。 如 图 3.12 所 示 ， 宗 上 略 评 信 
达 代 10 次 和 达 代 无 穷人 次 所 得 到 的 贷 林 和 东 略 是 一 样 的。 因此 ， 对 于 上 面 的 
问题 ， 我 们 的 回答 是 不 一 定 等 到 策略 评估 算法 完全 收敛 。 如 果 我 们 在 评 
{i 1K ENEIT SRM OE, MEAE ER BOE (CZ o 


EIEN 
四 四 四 加 
加 四 四 四 





图 3.12 策略 改善 


信函 数 和 迭代 算法 《如 图 3.13 所 示 ) 的 伪 代 人 码 为 


[1 们 输入: 状态 转移 概率 PS BREA BTRS ， 折 扣 因 子 / 
初始 化 值 尔 数 :v(s) = 0 初始 化 策略 ro 


[2] Repeat 1=0,1,... 
[3] for every s do 


[4]  Vis(s) = maxRg +y > Pols’) 
SrES 
[5] Until vri=u 
[6] 输出 : m(s) = argmaxRs + y 大 P2,u,(s’) 
P SIES 
图 3.13 {Eek BOA TR BYE 
ANT AEE BEV RIA RITE, EIR AS T a) EAT AHAH, 
fea) ENE BEES RAS MY IE T TB) SE 4 Fa Fis DA ES BY eS A SS, o 
{EL PRI BOA RES AS A BE re — A RER, RATE ROR AIR 
Ofer Tee SABA ZARA. FAR LPS ri AY Pel ETE = FP 


思路 : 变 分 法 原理 、 庞 特 里 亚 金 最 大 值 原 理 和 动态 规划 的 方法 。 三 种 方 
法 各 有 优 缺 点 。 

基于 变 分 法 的 方法 是 最 早 的 方法 ， 其 局 限 性 是 无 法 求解 市 有 约束 的 
优化 问题 。 基 于 庞 特 里 亚 金 最 大 值 原 理 的 方法 在 变 分 法 基础 上 进行 及 
展 ， 可 以 解决 市 约束 的 优化 问题 。 相 比 于 这 两 种 经 和 典 的 方法 ， 动 在 规划 
的 方法 相对 独立 ， 主 要 下 利用 贝尔 受 最 优 性 原理 。 

对 于 一 个 连续 系统 ， 往 往 有 一 组 状态 方程 来 摘 述 : 





X=f(t,X,U) X(to)= Xo (3.6) 
性 能 指标 往往 由 积分 给 出 : 
J| x(to),to |=9| X( jt J+J L(x u(t),t) (3.7) 
最 优 控制 的 问题 是 
V (X,t)= min | a ( ty |+ J L(x) (*).0) (3.8) 
由 贝尔 曼 最 优 性 原理 得 到 — (LAE E LE AK 77 FE: 
-T = min }L((t).u (0) +2 t)+ — — ¢[ x(t) u(t).t] (20 ) 


方程 (3.9) 是 一 个 偏 微分 Wd 对 于 仿 做 分 
方程 (3.9) ， 有 三 种 解决 思路 : 第 一 种 思路 是 将 值 轴 数 进行 离散 ， 求 
解 方程 (3.9) 的 数值 解 ， 然 后 利用 食 林 策略 得 到 最 优 控制 。 这 对 应 于 
求解 做 分 方程 的 数值 求解 方法 第 二 种 思路 是 利用 变 分 法 ， 将 微分 方程 
转化 成 变 分 代数 方程 ， 在 标 称 轨迹 展开 ， 得 到 微分 | 
种 思路 是 利用 函数 通 近 理论 ， 对 方程 中 的 回报 函数 和 控制 函数 进行 函数 
青 近 ， 利 用 优化 方法 得 到 示 近 系数 ， 这 类 方法 称 为 伪 详 的 方法 。 

前 两 种 方法 都 是 以 值 函 数 为 中 心 ， 其 思路 与 值 函 数 迭 代 类 似 ， 我 们 
在 此 介绍 前 两 种 方法 。 

第 一 个 思路 : 将 函数 进行 数值 离散 化 ， 也 融 是 HJB 方 程 的 数值 算 
法 。 

如 图 3.14 所 示 为 平面 移动 机 器 人 的 移动 规划 部 分 的 代码 ， 从 代码 中 


我 们 看 到 ， 图 3.14 框 线 内 市 点 处 的 值 在 计算 时 选取 的 也 是 最 小 值 函 数 。 


for iter in range(iter num): 
for sl in rg: 
[or sz in Te: 
for s3 in rg: 
for i in index[sl1]: 
for j in index|s2]: 
for k in index|s3]: 





iter e ter—1 
Vik min (Vi,V, Vs, Va; Vik ) 


图 3.14 平面 移动 机 器 人 移动 规划 
第 二 个 中 路 征 采 用 变 分 法 。 下 面 我 们 给 出 DDP 方 法 的 具体 推导 公 云 
ALATA o 


由 贝尔 曼 取 优 性 原理 得 
r) = min {ø| |X ( (tr) "f jfr (x(1),u(t),0) a 


os (3.10) 
salt L(x (r),u(z L r)dr+V(X+AX,t+de) 


ued 


假设 
Xk+ = f (xx,ux ) 
V, = min 1 (x Un) + Ven (Xka ) 
AQ (5x, u) =V (x+6x) -V (x) ， 则 Q 在 标 称 轨迹 (xk > uk 
) 展开 : 
O(dx,du) =V(x+6x)-V (x) 


=I (x; + OX, Ug = Vist (xl + OX )-(7(xiou )+ Vist (xl )) 
~Oxil, +dujl, 十 一 (Orla Ox, + 20x¢ Ly, OU + OUE la, buy )+ Ôx Va, 十 一 alec OX 


(3.11) 


Xxk+1 =f Cx, up) > FI: 
OX = Of (mw = fe, OX + fu, Out +5 (Bf fox +285 fx 5 + oul fu Ou ) (3.12) 


将 (3.12) 代入 (3.11) 可 以 得 到 : 


] Ôu” Qy,5u + (du? Q,.5x+ 6x" Q uU) + 1 ôu+ôu' 0, + 6x'O,,.6x + 


Ox, Ou) = 
ol | 2| 6x™O, +OTOx 


(3.13) 


, 


Or = be, + fi Vege 
On = lu, + Su Vee 
Ow = be, + fo Vice Sr + Voces Frege (3.14) 
Osu = lum, + Sa Vezia Jur + Vr Sun 
Ore = bcc, + IG Vicia Fae TV tiad it 
K (3.13) 视 为 6u 的 函数 ， 则 Q (6x, du) suh RAZ. 


如 图 3.15 所 示 ,，6W = argminQ(6x,6u)= -Qa (Qu + Qn6x) , 
Ou 


Q(du) 
du Su 


图 3.15 值 函数 变 分 函数 
我 们 令 


k = -Qn Q, K = -On On ( 3.45 ) 


jij Ou" = arg min O(dx,du)=k+Kédx 
Ou 


] 
AV =- 7 Q, OF u 


Vx, =O, -OOn Ov 

Vx, = Qs — Oi Dini Oi 
做 分 动态 规划 的 伪 代 人 码 为 
eH IAN: 给 定 初 始 控 制 序列 WwW ， 正 同和 迭代 计算 标 称 轨迹 。 

Ken = f (Ks olay s far ,Loe Dr slam 
eI: 由 代价 函数 边界 条 件 VxN ”，VxxN RARE 
(3.14) ， (3.15) 和 (3.16) 得 到 贪 琳 策略 6u”。 
e 正 回 欠 代 新 的 控制 序列 : 
省 = x (1) 


U, =u, +k, +K; (x — Xx ) 


(3.16) 


Xpt = S (XesUe ) 
NW — IE IGE Sou ” 的 过 程 我 们 可 以 看 到 ， 贪 焚 策 
略 通过 最 小 化 值 遇 数 得 到 。 
3.2 动态 规划 中 的 数学 基础 讲解 
3.2.1 线性 方程 组 的 迭代 解法 
利用 〈3.4) 计算 策略 已 知 的 状态 值 函数 时 ， 方 程 (3.4) 为 一 个 线 
性 方程 组 。 因 此 案 略 的 评估 束 变 成 了 线性 方程 组 的 求解 。 线 性 方程 组 的 
数值 求解 包括 直接 法 (如 高 斯 消 元 法 ， 窍 阵 三 角 分 解法 ， 平 方 根 法 、 追 
ERASE) MARRA. SMR VE ORS Be VET ZB I HAE o 
1. 何 为 迭代 解法 


不 失 一 般 性 ， 用 方程 (3.17) 表示 一 般 的 线性 方程 组 。 
AX =b (3.17) 

所 谓 适 代 解 法 是 根据 〈3.17) AESMA, FERC 
XO, SARA BIBT RASH, ABIX ， 再 将 X RAGE 
公式 中 得 到 X” , WIT RAS SIUC X 。 

那么 ， 根 据 〈3.17) 式 如 何 设 计 和 迭代 公式 ? 

(1) 方法 一 ， 雅 克 比 〈Jacobi) i4. H 

雅克 比 迭 代 法 假设 系数 矩阵 的 对 角 元 素 s F0 ”。 从 (3.17) 的 第 i 
个 方程 分 离 出 2 ， 以 此 构造 迭代 方程 : 


1 
4 一 (— 9X2 一 0373 — °** — Ain n + b1) 
QW11 
1 
ba = = (—@o1 T1 — a23 T3 — °° — Ay T + bə) 
A22 =~ ( 3.18 ) 
Ln 一 (—@,,1 21 — an2 £2 — °** — On n—12n-1 + bn) 





nn 


方程 (3.18) 与 成 矩阵 的 形式 为 


X=-D*(L+U)X+D"b dl 
其 中 : 
ay, 0 U dy a3 Qty 
Oy, J 0 ag … an 
D= ” , L= | ası az 0 , D= 
` E d 4 O Oni) 
ii Ani An? Anz *** O 0 


车 记 B 二 -D71(L 十 0), d=D7b, WARARJ 


X=BX-+d ( 3.20 ) 
在 进行 迭代 计算 时 ， “(3.18) 式 变 为 


1 

Ws A (Caut — 04323” — + — An tn” +) 
1 
1 
k+1)—- k k k 

Ty = — (az 2} — ag T — +++ — Qon E + ba) 

Gs (3.21 ) 
k+1 k 
zi l= ~a Qn1 Ly ) — apo LP 一 °° — An n- ia? > +0,) 


A FIERA TK (3.20) 求解 线性 方程 组 〈3.17) 的 方法 称 为 雅克 比 
TEA. EREB AIA ACER 

HE Ge LEI ARIE AAR ETT FERR, IDEA ABER? 答案 是 肯定 的 。 我 
们 可 以 观察 (3.21) ， 不 难 发 现 第 上 十 1 ER apa? 时 ， 分 量 
oy ay Ye oi? 都 已 经 求 出 来 了 ， 但 是 在 计算 六 ”时 ， 雅 克 比 
帮 代 方法 没有 利用 这 些 新 计算 出 来 的 值 。 如 果 这 些 新 计算 出 来 的 值 能 够 
PAI EPORA X iE Fey -A RK ARIE. 

Tey ST Be M KARE 

eol 量 之 后 ， 蕊 上 用 来 计算 的 迭代 算法 称 为 高 斯 - 赛 德 尔 
INE 对 于 线性 方程 组 ， 对 应 于 雅克 比 迭 代 过 程 3.21) 的 高 斯 - 赛 德 
IKERRI 


1 

m Y m (- A12 g$ 一 043 ty) 一 — An g™ A" b,) 

a1 

1 
el —(- (kK+1) __ (k) - (k) 
9 一 Lp2] Ti A23 T3 "= Ch + b2) 

的 (3.22) 
ght) — _ a, okt) 一 ano r+? L On nget. 4. b,,) 





FA RE AE FB Re AY 


(D+ L)X**X9=-UX™ +5 
写成 迭代 方程 为 
才 CY Ad, ( 3.23 ) 


其 中 G=- (D+L) U, d=(D+L)" 


3.2.2 压缩 映 喘 证 明生 上 略 评估 的 收 钱 性 


首 爷 ， 我 们 移 从 数学 上 了 解 什么 是 压缩 映射 (Contraction 
Mapping) . Contraction Mapping 中 文 可 以 诺 为 压缩 映射 或 压缩 有 映像。 
这 个 概念 来 目 于 数学 中 的 泛 图 分 析 。 内 容 涉 及 不 动 点 理论 。 不 动 点 和 压 
缩 映 射 钊 用 来 解决 代数 方程 ， 微 分 方程 ， 积 分 方程 等 ， 为 方程 解 的 存在 
VES EER AB eT Ve RSC HE WE BA He BE ON TB. AS SCAR UE BA IE AN 
HAC SCTE o 

定义 : 设 是 度量 空间 ， 其 度量 用 P RKR RNAS X , AE 
a, OXa<1 使 得 p(TzY,Ty) Sap(z,y), Vr,yEX , WRT REX 上 的 
— 7S RAS RY ; 

若 存 在 XoE 关 使 得 Txzo = zo, WRT 的 不 动 点 。 


定理 1 完备 度量 空间 上 的 压缩 映射 具有 唯一 的 不 动 点 。 

定理 1 古 说 ， 从 度量 空间 任何 一 点 出 及 ， 只 要 满足 压 绾 映射 ， 压 绾 
了 映射 的 序列 必定 会 收敛 到 唯一 的 不 动 点 。 因 此 证 明 一 个 迭代 序列 是 不 是 
收敛 ， 只 要 证 明 访 序列 所 对 应 的 映射 是 不 是 压缩 映射 。 

我 们 已 经 知道 了 什么 是 压 绾 映射 ， 那 么 脓 略 评估 是 如 何 跟 压 绽 映 射 
扯 上 关系 的 呢 ? 

器 答 这 个 问题 ， 我 们 还 要 退 根 溯源 ， 看 看 基于 模型 的 策略 评估 到 奈 
ETARE. ATM AGEN, MERE. ORME BUG Bice AR 
知 数 ， 信 函数 的 求解 其 实 是 解 一 组 线性 方程 。 为 讲述 方便 ， 我 们 在 这 里 


u (s) = > T (als) (z: 二 DD Peete o) 


acA S'ES 


WP “SAGE TT TEH, REH IIT AE m T-BAR IBN 


Urar) = > (als) (r: Hry `S P 3s! Uk o) 


acA SES 


iy -AE OB HE TENT TE RARA F EA TB EN AS A BE Vi 
半径 小 于 1， 这 个 条 件 也 是 由 压缩 映射 定理 得 来 的 。 在 这 里 ， 我 们 不 去 
求 系 数 窃 阵 的 谱 ， 而 是 找 一 个 特殊 的 度量 A_ 以便 人 简化 证 明 ， 这 个 度量 我 
Wie ATA wR, Bll 


|v || = max ||u(s) || 
SEO 


M HIE RAE] BNE ME R BY BR A ZEN 
T” (v) = R” +P" v 
PA RATIH AR EA E 4 RY o 
证 明 
p(T" (u), T" (v)) = |T" (u) — T" w) lo 
= ||(R" + yP*u) — R" Ple 
= || yP" (u — v) |l 
= lP les vlel a 
S| 
因为 0 三 Y<1 ， 所 以 T"(v) 是 一 个 压缩 映射 ， 该 迭代 序列 最 终 收 


敛 到 相应 于 策略 7 的 值 疯 数 。 上 面 是 利用 癌 量 形式 进行 的 推 姓 ， 可 能 个 
EREM, FARNIER AHE X H RRETHE H 
ARGH A3.16, ERAAN: 


U, (5) = > (als) (rs +y% Pv, o) 


acA s'ES 


T” (u) = X n (aļs)R” (s, a) +72 mals) > Ps , (8') 


acA S'ES 


Taty) = X n (aļs)R" (s, a) +y > mals) > Pa v,, (s') 


acA S'ES 





图 3.16 E KIŠE X BI 
如 图 317 中 的 不 等 式 证 明 所 示 : BAREEN 
绝对 值 max |idu(s,a) — qo (5:0) 最 大 的 那个 分 支 ， 第 二 个 不 等 式 对 应 


看 下 一 级 值 函数 基 绝 对 值 最 大 的 那个 ， 第 三 个 不 等 写 则 是 将 s' 推广 到 整 
个 状态 空间 ， 即 放大 到 整个 状态 空间 中 值 孙 数 看 最 大 的 那个 。 


|T*(u) =T" (v) || « 


= max p> T (a|s) J Po (ld) 一 7》， T (a|s) ;> Pv:(s') 
új ac À s'ES acA s'eS 
"> Pauls) 一 》， Pu) 


< max “ymax l|u,(s’) — v,(s') | 
5 s'ES 





























< ymax |u,(s) — v,(s) | 


图 3.17 收 全 性 证 明 
RKE AA ke A TORI AE TZ IA) eA AR 
那个 。 


|Z" (u) =T" w) |l < Yu (8) — Ve (8) Ilo 


3.3 基于 gym 的 编程 实例 


我 们 在 本 章 的 3.1T 中 已 经 介绍 了 基于 休 略 迭代 的 方法 和 基于 值 函 
数 的 方法 。 在 本 节 中 ， 我 们 基于 Python 和 gym 实 现 策 略 迭 代 方 法 和 值 迭 
代 方 法 。 我 们 仍然 以 机 磊 人 找 金币 为 例 ， 其 MDP 柑 型 在 上 一 章 已 经 给 出 
SSP. RAAT SES A IATA, FAP ABATE. 

1. R RRI E 

W31 P, RRIARI EE A RS E RA o Python F 1R 
码 定 义 如 图 3.18 所 示 。 


/ 策略 迁 代 算法 N 
Python 代码 片段 


(省 输入: 状态 转移 概率 Bs, 回报 函数 Rs ， 折 加 因子 
初始 化 值 函数 : V(s) = 0 初始 化 策略 mo 


def policy iterate(self, grid mdp): 


REE for i in range(100): 
(3] find y” Policy evaluation — » self. policy_evaluate (_mdp) ; 
4] myy(s) € argmaxq"(s,a) Policy improvement self. policy_improve(grigridd_mdp) ; 








(5) Until es =m 


(6) 输出 ; "= 





图 3.18 FERGIE A CES Python {tg xe X 
7EA3.18, Python (tS Gita eS VE ih A RA E NAT ET o IX 
PAS PREPS SIBIT, EIR IT E.R A EAT T 2 Pl) SEL 
策略 评估 和 策略 改善 。 
E ICE RE PP o 
床上 略 评 估算 法 的 伪 代 人 码 由 图 3.5 给 出 。 图 3.19 中 ， 我 们 给 出 全 上 略 评 估 
算法 的 仿 代 但 及 Pyhon 实 现 。 


策略 评估 算法 Python 代码 片段 
[1 输入 : 需要 评估 的 策略 x 状态 转移 概率 pa 回报 水 ||def policy evaluate(self, grid mdp): 
数 Re ， 折 扣 因子 for i ln range(1000): 
delta = 0.0 
(2) Meath: V(s)=0 for state in grid mdp. states: 


if state in grid mdp. terminal states: continue 


(3 Repeat k=0,1,... 
(4 

[5 
[6] 


[7] Until VUk+1 = Uk 


[8] $i:  v(s) 


action = self. pilstate| 








‘ for every s dc . , 
iti t §, f grid mdp. transform(state, action 
SU = j md ‘ 
] Uk+i(S) = > al Re +y 》 有 os new vV r + grid mdp. gamma * self. vfs] 
aca SIES 


delta += abs(self. vistate] - new v) 
end for | 


Lself. vistate] = new v 
if delta < le-6: 
break 





\ seis 





图 3.19 策略 评估 算法 伪 代 人 码 及 Python 实 现 

需要 注意 的 一 扣 是 柴 略 评估 包括 两 个 循环， 第 一 个 循 坏 为 1000 
次 ， 你 证 值 函 数 收 敛 到 该 策 上 略 所 对 应 的 真实 值 隙 数 。 第 二 个 人 循环 为 整个 
状态 衬 间 的 扫 摘 ， 这 样 保证 状态 衬 间 每 一 点 的 全 函数 都 得 到 佑 计 。 在 第 
二 个 循环 中 ， 用 到 了 系统 的 模型 ， 即 ， 由 于 模型 已 知 ， 因 此 我 们 确切 地 
知道 采用 相应 的 策略 后 下 一 个 状态 是 什么 。 这 个 性 质 使 得 智能 体 无 需 实 
际 玉 用 这 个 动作 然后 看 下 一 个 状态 古 什么 ， 而 仅仅 利用 模型 束 能 预测 下 
个 状态 。 这 个 展 好 的 性 质 使 得 镶 能 体能 预测 所 有 的 动作 ， 而 无 模型 的 方 
法 则 没有 如 此 好 的 性 质 一 一 这 是 基于 模型 方法 和 无 模型 方法 的 本 质 区 
列 。 无 模型 的 方法 只 能 利用 各 种 方法 来 估计 当前 的 行为 好 坏 。 

A Y RRF, RAAEN S, BEF A NE R A E] 
PER, KARKE EIR, SRE OE A SUE A 


Wira (s) € arg max q” (s,a) (3.24 ) 





图 3.20 为 策略 改善 的 Python 代码 ， 该 代码 包括 两 个 循环 ， 外 循环 对 
整个 状态 衬 国 进行 过 历 ， 内 循环 对 每 个 状态 空间 所 对 应 的 动作 空间 进行 
W, ISEB R BUS EA E R A o 

HAS TR HS OC E MRR REN S EMAR (3.24) 。 

Python 代码 片段 


def policy improve(self, grid mdp): 
for state in grid mdp. states: 
if state in grid mdp. terminal states: continue 


al = grid mdp. actions|0! 
t, s, r = grid mdp. transform( state, al ) 
y] = r + grid mdp. gamma * self. v[s] 


—~for action in grid mdp. actions: 


t, s, r = grid mdp. transform( state, action ) 
satis | if vl < r + grid mdp. gamma * self. v[s]: 

j al = action 

| vl = r + grid mdp. gamma * self.vls] 


- self. pilstate] = al 
图 3.20 SRM IA USE H HI HS 
2AE RN IA 
FP RRIARI IEE 30 FE FT R PEREA o HHA R HF 
WP i ZANE IK, MRE REAA. EKRA EN EER 
Me VE a RIR SAR. HARAAM Python tA KE oo 3.21 PTR - 


M BARAR A 


MA: SAME IRINA ， 折 扣 因子 | 





Python 代码 片段 
def value iteration(sell, grid mdp) : 
for i in range (1000): 
delta = 0.0 
_-» for state in grid_mdp. states: 
- if state in grid mdp. terminal states: continue 











HRCA :v(s)= 0 初始 化 策略 Mo al = grid mdp. actions |0| 
ail eal t, s, r = grid mdp. transform( state, al ) 
Repeat 1=0,1;77 yl = r + grid_mdp. gamma * self, v[s] 






for action in grid_mdp. actions: 
ay! a t, s, r = grid mdp. transform( state, action ) 


for every s do 一 







if vl < r+ grid mdp. gamma * self. v[s]: 


win(s) = max’ +y ) Peus’) a i 
a 
















Stes al = action 
Until Vri = V vl = r + grid mdp. gamma * self. vis] 
delta t= abs(vl - self. v[state]) 
fet m(s) = argmaxR¢ + D P$ u,(s') elf. pilstate] = al 
d S'ES self. v[state] = vl 
if delta < le-6: 





break 
图 3.21 (EIRENE TARAS Python ti 
(EIA Te = IA, A — BK EA FR PRUE AO, SF 
中 间 的 循环 用 来 遍历 整个 状态 空间 ， 对 应 着 一 次 策略 评估 ， 第 三 重 最 里 
面 的 循环 则 是 遇 历 动作 空间 ， 用 来 选 最 优 动作 。 
3.4 最 优 控制 与 强化 和 学习 比较 


当 柑 型 已 知 时 ， 强 化 学 习 问 题 可 转化 为 最 优 控 制 问 题 。 本 书 我 们 给 
出 最 优 控制 的 计算 方法 。 一 般 而 言 ， 最 优 控制 的 数值 计算 方法 分 为 间接 
法 和 百 接 法 。 其 分 关 如 网 3.18 所 示 。 


最 大 值 原理 


图 3.18 最 优 控制 的 计算 方法 分 类 
最 优 控制 问题 的 数学 形式 化 ， 可 由 方程 3.6) 和 (3.8) 给 出 。 为 
了 表述 方便 ， 我 们 在 这 里 重复 与 下 最 优 控制 的 数学 形 陈 化 : 





V (X,t)=min} [ X(t,)st ]+ J Lule) 
subject to X=f(t,X,U) X(t)= Xo 

1. 什 么 是 间接 法 

所 谓 则 接 法 ， 是 指 竣 先 利 用 变 分 法 、 最 大 值 原理 或 者 动态 规划 方法 
得 到 求解 最 优 问 题 的 一 组 微分 方程 《如 本 章 3.1 节 利用 动态 规划 的 方法 
得 到 了 一 组 俩 微分 方程 ) ， 之 后 ， 利 用 数值 求 解 方法 求 出 此 微分 方程 组 
的 解 ， 此 解 即 为 原 最 优 问 题 的 解 。 如 本 文 介绍 的 微分 动态 规划 的 方法 残 
属于 间接 法 。 

2. 什 么 是 直接 法 

和 直接 法 与 间接 法 不 同 ， 它 不 需要 自 先 利用 最 优 控 制 理论 (如 变 分 原 
理 ， 最 大 值 原理 或 动态 规划 方法 ) 得 到 一 组 微分 方程 ， 而 是 直接 在 可 行 
控制 集中 搜索 ， 找 到 最 优 的 解 。 直 接 方法 也 分 为 两 关 ， 一 类 是 将 状态 变 
量 和 控制 变量 参数 化 ， 将 最 优 控制 问题 转化 为 参数 优化 问题 ;第 二 关 古 
引入 函数 空间 中 的 内 积 与 泛 函 的 楷 度 ， 将 表态 的 优化 方法 推广 到 疯 数 空 
间 中 。 

在 直接 法 中 ， 最 弟 用 的 是 盆 详 的 方法 。 伪 诺 的 方法 是 指 在 正 交 配置 
点 处 将 连续 最 优 控制 问题 离散 化 ， 通 过 全 局 委 值 多 项 却 遇 近 状 态 量 和 和 输 
入 控制 量 ， 直 接 将 最 优 控制 问题 转化 为 非 线 性 规划 问题 ， 再 利用 非 线 性 
规划 问题 的 各 种 优化 方法 求解 。 第 用 的 伪 谐 方法 有 Gauss《〈 融 斯 ) 伪 详 
YE. Legendre CHE) AE, Radau (AE) 伪 谱 法 和 
Chebyshev (WHA) 伪 谱 法 。 

最 优 控 制 方法 在 那些 模型 已 知 的 友 员 决策 问题 中 己 经 取得 了 很 好 的 
结果 。 夺 是 你 面 对 的 问题 可 以 用 精确 的 模型 来 描述 ， 便 可 和 直接 及 用 最 优 
控制 的 方法 。 全 于 采用 最 优 控制 的 哪 种 方法 ， 可 根据 其 体 问 题 选 用 。 

可 能 有 人 妖 惑 ， 这 本 书 讲 的 是 强化 和 学习 ， 怎 么 又 讲 开 了 最 优 控制 ， 
征 不 是 跑题 了 ? 

没有 跑题 。 

最 优 控制 经 过 几 十 年 的 及 展 ， 已 有 很 多 优秀 的 成 有 末 。 在 模型 未 知 的 
强化 学 习 算 法 中 ， 这 些 优 秀 的 成 末 可 直接 全 来 应 用 。 如 何 应 用 ?” 在 基于 


模型 的 强化 学 习 算 法 中 ， 乔 能 体会 完 利 用 交互 数据 拟 合 一 个 模型 ， 有 了 
模型 ， 我 们 就 可 以 利用 最 优 挥 制 的 计算 方法 计算 当前 最 优 解 ， 产 生 当 前 
的 最 优 控 制 率 。 乔 能 体会 利用 当前 的 最 优 控 制 京 与 环境 交互 ， 进 一 步 优 
化 行为 。 

结合 最 优 控制 的 蝇 化 学 习 算 法 在 机 大 人 等 领域 取得 了 很 多 优秀 的 成 
采 ， 最 典型 的 是 引导 沫 略 搜索 的 算法 。 本 书 第 10 章 会 详细 介绍 该 方法 。 


3.5 习题 
1. 什 么 是 胰 略 迭代 算法 ， 什 么 是 值 迭 代 算 法 ， 两 者 的 区 别 和 联系 是 
什么 。 
2 fea UT BE Fe OR IRR TEAM EE ok LER RIE K EAFA o 
3. 利 用 动态 规划 的 方法 求解 如 下 类 下 问题 : 





4. 基 于 HJB 方 程 分 别 用 数值 法 和 DDP 的 方法 分 别 求解 如 下 带 有 非 完 
整 约束 使 得 机 如 人 人 路径 最 优 的 规划 问题 : 





fa 
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4 基于 家 特 卡 多 的 强化 学 习 方 法 
4.1 基于 蒙特 卡 罗 方 法 的 理论 


本 章 我 们 学 习 无 模型 的 强化 学 习 算法 。 
强化 学 习 算 法 的 精髓 之 一 是 解决 无 模型 的 马尔 科 夫 决策 问题 。 如 图 
4.1 所 示 ， 无 模型 的 强化 学 习 算 法 主要 包括 蒙特 卡 罗 方 法 和 时 间 差分 方 
法 。 本 章 我 们 曾 述 蒙特 卡 罗 方 法 。 
_ 序 贯 决策 问题 
p 


马尔 科 夫 决策 过 程 MOP (S,A,P,R,y) 
(S,A, P,R,¥) (S,A,P? R? y? ) 


ETRE ASMA 37h 无 模型 的 强化 学 习 方法 
策略 迭代 | 「 值 迭代 策略 搜索 


号 特 卡 罗 为 法 | 。 | 站 于 全 让 
图 4.1 强化 学 习 方 法 分 类 


学 习 家 特 卡 多 方法 之 前 ， 我 们 先 梳理 强化 学 习 的 研究 思路 。 首 抑 ， 
强化 学 习 问 题 可 以 纳入 马尔 科 夫 决 案 过 程 中 ， 这 方面 的 知识 已 在 第 2 章 
阅 述 。 在 已 知 柑 型 的 情况 下 ， 可 以 利用 动态 规划 的 方法 (动态 规划 的 思 
起 是 无 模型 中 化 学 习 研 客 的 根源 ， 因 此 重点 曾 述 ) 解决 马尔 科 夫 决 朱 过 
程 。 第 3 昔 ， 曾 述 了 两 种 动态 规划 的 方法 : RERA. PAH 
方法 可 以 用 广义 策略 迭代 方法 统一 : 即 先进 行 策略 评估 ， 也 就 是 计算 当 
EIRE TAMAA RZ HAH RAE Ro JRR EA 
习 基 本 思想 也 是 如 此 ， 即 : RMS PP fr A SHS E o 


在 动态 规划 的 方法 中 ， 值 函数 的 计算 方法 如 图 4.2 所 示 。 






y 





Ur(S ) es * 
图 4.2 值 函数 计算 方法 
ur(s) = 》 (als) (rs +7) Pho, e) (4.1) 
acA S'ES 


动态 规划 方法 计算 状态 ND AE RANA RRP, METRA 
强化 学 习 中 ， 模 型 上 ss 是 未 知 的 。 无 模型 的 强化 学 习 算 法 要 想 利用 策略 


评估 和 策略 改善 的 框架 ， 必 须 采 用 其 他 的 方法 评估 当前 策略 (计算 值 函 
数 )。 


我 们 回 到 值 函 数 最 原始 的 定义 公式 (参见 第 2 革 ) : 
Ux (s) = B, [GS =s] = b, > YY Regrilds = | (4.2 ) 
k=0 
qz (s) = b, PTRS =s, A =al (4.3) 
k=0 


ASE RAMIT AE RA RSK p Ee R EES CB 
图 4.2) , HSARA ENH RE RAHE. ERARA, R 
们 可 以 采用 聚 符 卡 罗 的 方法 计算 斌 期 望 ， 即 利用 随机 样本 估计 期 诅 。 在 
计算 值 隙 数 时 ， 取 特 卡 罗 方 法 是 利用 经 验 平 均 代 谷 随 机 变量 的 期 湾 。 此 
处 ， 我 们 要 理解 两 个 词 : 经 验 和 平均 。 

首先 来 看 下 什么 是 “经 验 ”。 


当 要 评估 智能 体 的 当前 策略 7 时 ， 我 们 可 以 利用 策略 7 产生 很 多 
次 试验 ， 每 次 试验 都 是 从 任意 的 初始 状态 开始 直到 终止 ， 比 如 一 次 试验 
(an episode) 为 51,41,R2,…,57r， 计 算 一 次 试验 中 状态 5 处 的 折扣 回 
报 人 返回 值 为 G,(s) = Rai HYR t ety Re ; 

HA “Ze der” wh te ta AAA A TR UR & i, TEIR E EB 〈 这 
里 的 一 幕 是 一 次 试验 的 意思 ) ， 如 图 4.3 所 示 。 

nan, (s,G,,) (s,G,, ) 
一 次 试验 -和 :se sr 
So Er 
第 二 次 试验 : CO 一 6 一 (一 9 一 仿 ---- 〇 一 9 一 | Sr 
图 4.3 SIFRA AY Ag Soe 

再 来 看 什么 是 “平均 ”。 

这 个 概念 很 和 洽 单 ， 平 均 束 是 求 均值 。 不 过 ， 利 用 芝 特 卡 罗 方 法 求 状 
Ass 处 的 值 函数 时 ， 又 可 以 分 为 第 一 次 访问 蒙特 卡 罗 方法 和 每 次 访问 蒙 
特 卡 罗 方 法 。 

第 一 次 访问 过 特 卡 罗 方 法 是 指 在 计算 状态 ”处 的 值 水 数 时 ， 只 利用 
BEV FB IR BIR ASS 时 的 返回 值 。 如 图 4.3 中 第 一 次 试验 所 
IR, RARS 处 的 均值 时 只 利用 Gu ， 因 此 第 一 次 访问 革 特 卡 罗 方 法 
的 计算 公式 为 


Gis (Ss) + Goi (8) += 


uls) Nis) 
BER UI IA] BEER TE ete et Bass 处 的 值 函 数 时 ， 利 用 所 有 
访问 到 状态 时 的 回报 返回 值 ， 即 
Gy Gio a Go Ce y 
u(s) = Suk) eee do tai ， 根 据 大 数 定 律 : 


U(S) >vu,(s) as N(s) >œ., 


由 于 镶 能 体 与 环境 交互 的 模型 是 未 知 的 ， 冢 特 卡 多 方法 是 利用 经 验 


平均 来 佑 计 值 函 数 ， 而 能 否 得 到 正确 的 值 函 数 ， 则 取决 于 经 验 一 因 
此 ， 如 何 获得 充足 的 经 验 是 无 模型 强化 学 习 的 核心 所 在 。 

在 动态 规划 方法 中 ， 为 了 保证 值 函 数 的 收敛 性 ， 算 法 会 逐个 扫描 状 
态 空间 中 的 状态 。 无 模型 的 方法 充分 评估 策略 值 函数 的 前 提 是 每 个 状态 
都 能 被 访问 到 ， 因 此 ， 在 蒙特 卡 洛 方法 中 必须 采用 一 定 的 方法 保证 每 个 
状态 都 能 被 访问 到 ， 方 法 之 一 是 探索 性 初始 化 。 

探索 性 初始 化 是 指 每 个 状态 都 有 一 定 的 几率 作为 初始 状态 。 在 学 习 
基于 探索 性 初始 化 的 蒙特 卡 罗 方 法 前 ， 我 们 还 需要 先 了 解 策略 改善 广 
法 ， 以 及 便于 进行 和 代 计 算 的 平均 方法 。 下 面 我 们 分 别 介绍 蒙特 卡 罗 策 
略 改善 方法 和 可 递增 计算 均值 的 方法 。 

(1) 蒙特 卡 罗 策 略 改善 

蒙特 卡 罗 方 法 利用 经 验 平均 估计 策略 值 函数 。 估 计 出 值 函数 后 ， 对 
于 每 个 状态 ， 它 通过 最 大 化 动作 值 函数 来 进行 策略 的 改善 。 即 


7(s) =argmax q(s,a) 





(2) 递增 计算 均值 的 方法 如 〈4.4) 式 所 示 。 


wis) 一 天》 Gi 8) 


k— 1 
— CAG 4 2 ,0 | 


= = (G(s) + (k-1)v,-1(s)) 


(4.4 ) 


1 
— Us (s) (G; (s) — Uk-ı (s) ) 
如 图 4.4 所 示 征 探索 性 初始 化 去 特 卡 罗 方 法 的 伪 代 但 ， 需 要 注意 的 


HES 

第 一 ， 第 2 步 中 ， 每 次 试验 的 初始 状态 和 动作 者 是 随机 的 ， 以 剑 证 
每 个 状态 行为 对 都 有 机 会 作为 彻 始 状态 。 在 评估 状态 行为 值 隙 数 时 ， 需 
要 对 每 次 试验 中 所 有 的 状态 行为 对 进行 售 计 ; 


Poh — 


Bi, BSA TERCERA, WA Te CRS BCE o 
[1] ”初始 化 所 有 : 
séS,aeA(s),O(s,a)< arbitrary, 
a (s)< arbitrary, Returns (s,a)< empty list 
[2] Repeat: 
随机 选择 S,eS,4,¢A(S,) | MS,.4, FEMER V 


生成 一 个 实验 (episode) ， 对 每 对 在 这 个 实验 中 出 现 
的 状态 和 动作 ， Ss, a. 策略 评估 
G < s,a 第 一 次 出 现 后 的 回报 

将 G 附 加 于 回报 Returns(s, a) E 





Q(s,a) — average(Returns(s,q)) 对 回报 取 均 值 


[4] 对 该 实验 中 的 每 一 个 s: 
a(s)<-argmax,Q(s,a) ”策略 改进 
图 4.4 探索 性 初始 化 聚 特 卡 罗 方 法 
我 们 再 来 讨论 一 下 探索 性 初始 化 。 
探索 性 初始 化 在 适 代 每 一 幕 时 ， 初 始 状态 是 随机 分 配 的 ， 这 样 可 以 
保证 达 代 过 程 中 每 个 状态 行为 对 部 能 秘 选 中 。 它 强 含 看 一 个 假 股 : 假设 
所 有 的 动作 部 锐 无 限 频 崇 选中。 对 于 这 个 假设 ， 有 时 很 难 成 立 ， 或 无 法 
完全 你 证 。 
我 们 会 问 ， 如 何 保证 在 初始 状态 不 变 的 同时 ， 叉 能 你 证 每 个 状态 行 
为 对 可 以 被 访问 到 ? 
答 : 精心 设计 你 的 探 款 琳 上 略 ， 以 你 证 每 个 状态 部 能 饿 访问 到 。 
可 是 如 何 精心 地 设计 探索 束 上 略 ? 符合 要 求 的 探索 人 策略 应 该 是 什么 样 
Hy 2 
答 : 策略 必须 是 温和 的 ， 即 对 所 有 的 状态 s 和 a WE: (als) >0 
。 也 就 是 说 ， 瘟 和 有 的 探 过 末 略 是 指 在 任意 状态 下 ， 采 用 动作 集中 每 个 动 
作 的 概率 部 大 于 零 。 典 型 的 温和 集 略 是 e 一 soft FAME: 


{—<+- if a=argmax,Q(s,a) 
nla) 4 ACs) (4.5) 
IAG) if a#argmax,Q(s,a) 


RRR ARES CAT SITE) AUPE SMR ce ON I] “SRE, Be RF 
卡 罗 方 法 又 分 为 on-policy 和 off-policy 两 种 方法 。 

右 行 动 形 略 和 评 佑 及 改善 的 脓 略 是 同一 个 脓 略 ， 我 们 称 为 on- 
policy, HJ #YPEA TA R . 

Aa AT SRM AE rh Ae EY RS EAS A) RS, BAT of f- 
policy, PÆNE N R- 

接 下 来 我 们 重点 理解 这 on-policy 方 法 和 off-policy 方 法 。 

(1) 同 策略 。 

同 策略 Con-policy) tar E Bae AY OR nS Sy PP rh AE AY SRK Ze 
EHAR. ECM, Bape E ANY DR AP rh Ac Ne HN AS AB 
e— soft 策略 。 其 仿 代 码 如 网 4.5 所 示 。 


[1] 初始 化 所 有 :5s ES,a E A(s),O(s,a) < arbitrary 
Returns ( s,a )4— empty list 
m (s) < arbitrary e-soft RIK, 
Repeat: 
[2] 从 5,, 4 开始 以 策略 m 生成 一 次 实验 (episode) ， 
[3] 对 每 对 在 这 个 实验 中 出 现 的 状态 和 动作 ，s, a: 
G 二 3,a 第 一 次 出 现 后 的 回报 


将 G 附 加 于 回报 Returns(s, a) 上 策略 评估 
Q(s,a) < average(Returns(s,a)) 对 回报 取 均 值 
[4] 对 该 实验 中 的 每 一 个 s: 策略 改进 





l-s+ if a =argmax, O(s,a) 


= 
A ( 5 ) 





t(a\s)<— 
if a#argmax, O(s,a) 


E 
|A(s) 
图 4.5 FRERE 7 EANA 


图 4.5 中 产生 数据 的 策略 以 及 评估 和 要 改善 的 策略 都 是 < 一 soft iK 
HE 。 

(2) 异 策略 。 异 策略 Coff-policy) 是 指 产生 数据 的 策略 与 评估 和 
改善 的 全 上 略 不 是 同一 个 全 上 略 。 我 们 用 7 表示 用 来 评估 和 改 普 的 案 略 ， 用 
H 表示 产生 样本 数据 的 傈 上 略 。 

异 策 略 可 以 保证 充分 的 探索 性 。 例 如 用 来 评估 和 改善 的 策略 区 是 人 
森 策 略 ， 用 于 产生 数据 的 探索 性 策略 4” 为 探索 性 策略 ， 如 & 一 soft 
HE 。 

FA SARTRE HY BR OAT SRM IPSEC EY, MN EAH 
满足 一 定 的 条 件 。 这 个 条 件 是 覆盖 性 条 件 ， 即 行动 策略 人 产生 的 行为 履 
盖 或 包含 目标 策略 7 产生 的 行为 。 利 用 式 子 表示 : Tals) >0 的 任 
何 (s,a) 均 满 足 L(als) >0 。 

利用 行为 案 略 产生 的 数据 评估 目标 集 略 需要 利用 重要 性 灯 样 方法 。 
下 面 ， 我 们 介绍 重要 性 采样 。 

我 们 用 图 4.6 摘 述 重 要 性 采样 的 原理 。 重 要 性 采样 来 源 于 求 期 望 ， 
如 图 4.6 所 示 : 


aR SP 


E[S] = J rp (a iag’ 





图 4.6 重要 性 采样 
如 图 4.6 所 示 ， 当 随机 变量 z 的 分 布 非常 复杂 时 ， 无 法 利用 解析 的 方 
法 产生 用 于 逼近 期 望 的 样本 ， 这 时 ， 我 们 可 以 选用 一 个 概率 分 布 很 简 


单 ， 很 容易 产生 样本 的 概率 分 布 4(z) ”， 比 如 正 态 分 布 。 原 来 的 期 望 可 


Elf! = | Fae 





=] rà pia mor. (4.7) 





ADE peano 


定义 重要 性 权重 : w"= p" yak") ， 普 通 的 重要 性 采样 求 积 分 
如 方程 (4.7) 所 示 为 


Ely | = Ww se) (4.8 ) 


FSR (4.7) BAN, AES RPE RAMEE AZo tt oP BHA 
计 的 期 望 值 等 于 真实 的 期 望 。 但 是 ， 基 于 重要 性 采样 的 积分 估计 的 方差 
EKK. 这 是 因为 原来 的 被 积 函数 乘 了 一 个 重要 性 权重 ， 改 变 了 被 积 函 
数 的 形状 及 分 布 。 尽 管 被 积 函 数 的 均值 没有 发 生变 化 ， 但 方差 明显 发 生 
改变 。 

在 重要 性 床 样 中 ， 使 用 的 采样 概率 分 布 与 原 概 率 分 布 越 接近 ， 方 关 
越 小 。 然 而 ， 被 积 函 数 的 概率 分 布 往往 很 难 求 得 、 或 很 奇怪 ， 因 此 没有 
与 乙 相 似 的 简单 采样 概率 分 布 ， 如 末 使 用 分 布 关 别 很 大 的 采样 概率 对 原 
概率 分 布 进行 采样 ， 方 天 会 趋 近 于 无 穷 大 。 一 种 减 小 重要 性 采样 积分 方 
莹 的 方法 是 采用 加 权重 要 性 采样 : 


1x os rig’) (4.9 ) 


TEFEN TIE, AREE BU AAR PAE PEAS eM, Are AL 
迹 概率 分 布 相 当 于 重要 性 采样 中 的 9Lzj ， 用 来 评估 和 改进 的 策略 7 所 对 


应 的 轨迹 概率 分 布 为 PLz] ， 因 此 利用 行动 策略 上 所 产生 的 累积 函数 返 
器 值 来 评 信 和 宽 略 7 时， 需要 在 累积 函数 返回 值 前 面 弱 以 重要 性 权重 。 
FE A PNRM OR RAREN 


T-1 
Pr(A,,S441,°°* Sr) = | [TAS p C8441|5:, As) 
k=t 


FEAT SINGH 下 ， 相 应 的 试验 的 概率 为 


T—1 
Pr(A,,Si41,°°°, Sr) — | [ HAS) p(Sesa)Si, Ae) 


k=t 


因此 重要 性 权重 为 


T-1 
m1 (A,|S Skik, A = 
ji ( k r) pL k+1l k k) E oe A 





pt 二 TS = (4.10) 
p= u (Ar| S) 
[| (Ar| Sk) PCS ktl Sk Ax) 7 | 
普通 重要 性 采样 的 值 函 数 估计 如 图 4.7 所 示 : 
T(t) 
V (8) — Žreropi Gi (4.11) 


|T(s)| 


从 t+ 到 T(t) 的 返回 值 
有 时间 t 后 的 第 一 次 终止 时 刻 


yp 
V (s)= te7 (s)/ t j 
7 (s) 
状态 s 被 访问 过 的 所 有 时 刻 的 集合 
图 4.7 普通 重要 性 采样 计算 公式 
现在 举例 说 明 公 式 (4.11) 中 各 个 符号 的 有 具体 含义 。 





如 图 4.8 所 示 ，t 是 状态 s 访问 的 时 刻 ，T(t) 是 访问 状态 5 相对 应 
的 试验 的 终止 状态 所 对 应 的 时 刻 。7(s) ÆRES 发 生 的 所 有 时 刻 集 
合 。 在 该 例 中 ，7T(4) =7, 7T(15) =19, 7(s) = {4,15} 。 


S a S a 
t=123456/7891011 121314151617 18 19 


7 (s)={4,15! 7(4)=7,7(15)=19 
图 4.8 重要 性 采样 公式 举例 解释 
加 权重 要 性 采样 信函 数 售 计 为 





Berat. O 
V (s) = 一 一 一 一 一 一 一 
) Bp 
Bia, RITE Fen BER A BRE RS REAR, onl4.9 
所 示 。 


(4.12 ) 


[1] 初始 化 ， 对 于 所 有 的 
seS,ae A(s): 
O(s,a)<— {EX 
C(s,a)<—0 
r(s) — 相对 于 Q 的 贪 禁 策略 
[2] Repeat forever: 
利用 软 策略 人 产生 一 次 实验 : 
ee ae a ee Sy ae 
G <0 
W<] 
[3] For t =T -1,T -2,---downto0: 


GyYG+R,, 


C(S,A)<-C(S,A)+W 策略 评估 


015.4) 0(s.A)+ [6-0(S.A)] 





C(S,,4 





x(S,) 二 argmax QO(S,a) 策略 改善 
如 果 4 = x(S, UDE H forh 


We Wer 
u(A |S, ) 


图 4.9 RIRA DIERE 

注意 : JERA Ne — soft 策略 ， 需 要 改善 的 策略 7 HA 
EAE o 

总 结 一 下 : AHH UR S Oe FE MCHI Aa aa. se 
FIRR AEA LE, ZEST MCHA R HEA BUA th EA PAS 
fe], ÆRE ENE TEI, BUPA RS, AH S21) 9 (8 es 
ETT FRM CE. AT ig HE Ea FR fton-policy 和 off-policy 的 概念 ， 并 和 学 会 
FH BE ERE VE ih H op SES AE PBI A 


4.2 统计 学 基础 知识 


为 什么 要 讲 统计 学 ? 
我 们 先 看 一 下 统计 学 的 定义 。 统 计 学 是 关于 数据 的 科学 ， 它 提供 的 
是 一 套 有 关 数 据 收集 、 处 理 、 分 析 、 解 释 并 从 数据 中 得 出 结论 的 方法 。 


联系 我 们 关于 强化 学 习 算 法 的 概念 : 强化 学 习 古 镶 能 体 通 过 与 环境 
交互 产生 数据 ， 并 把 从 中 学 到 的 知识 内 化 为 目 身 行为 的 过 程 。 学 习 的 过 
呈 其 实 束 是 数据 的 处 理 和 加 工 过 程 。 尤 其 是 值 函 数 的 估计 ， 更 是 利用 数 
ttt ASE, WRASSE, Fiz, Alt, LAER 
计 和 学 的 术语 。 下 面 做 些 简 单 介绍 。 

忌 体 : 包含 了 所 研究 的 全 部 数据 的 集合 。 

样本 : ”从 总 体 中 抽取 的 一 部 分 元 系 的 集合 。 在 episode 强化 学 习 
中 ， 一 个 样本 是 指 一 基数 据 。 

统计 量 : “用 来 搞 述 样本 特征 的 概括 性 数字 上 度量。 如 样本 均值， 样 
本 方 震 ， 样 本 标准 大 等 。 在 强化 学 习 中 ， 我 们 用 样本 均值 衡量 状态 值 函 
BX o 

样本 均 信 : 

RAIA An 为 样本 容量 为 n 的 随机 样本 ， 它 们 是 独立 同 分 布 的 
随机 变量 ， 则 样本 均值 为 


Ka 一 一人 一 一 一 一， 样本 均值 也 是 随机 变量 ， 

样本 方差 : 

设 X1,XX。,…,X， 为 样本 容量 为 n 的 随机 样本 ， 它 们 是 独立 同 分 布 的 
随机 变量 ， 则 样本 方差 为 


(X,—X)°+ (X-X) +--+ (X,—-X)’ 


52 = 
n 
无 俩 估计 : 
右 样 本 的 统计 量 等 于 总 体 的 统计 量 ， 则 称 该 样本 的 统计 量 所 对 应 的 
值 为 无 偏 估计 。 如 总 体 的 均值 和 方差 分 别 为 上 4 和 天” 时 ， 厂 


E(X) =p, E(S?) =o? , WX AS? 称 为 无 偏 估计 。 
蒙特 卡 罗 积 分 与 随机 采样 方法 BB] . 


BEERS TE i FART ERA AR oy, Oe BR UP 
| tae (4.13 ) 


MRS) 的 函数 形式 非常 复杂 ， 则 〈4.13) 式 无 法 应 用 解析 的 形式 
计算 。 这 时 ， 我 们 只 能 利用 数值 的 方法 计算 。 利 用 数值 的 方法 计算 
(4. i 式 的 积分 需要 取 很 多 样本 点 ， 计 算 f a) 在 这 些 样本 点 处 的 值 ， 
并 对 这 些 值 求 平 均 。 那 么 问题 来 了 : 如 何 取 这 些 样 本 点 ?如 何 对 样本 点 
处 的 图 数值 求 平 均 呢 ? 
针对 这 两 个 问题 ， 我 们 可 以 将 (4.13) 云 等 价 变换 为 
b 
J PE rls)de (4.14) 
其 中 T(Z) ”为 已 知 的 分 布 。 将 (4.13) 式 变换 为 等 价 的 〈4.14) 式 
后 ， 我 们 残 可 以 回答 上 上面 的 两 个 问题 了 。 
问题 一 :如何 取样 本 点 ? 
答 : 因为 T4Z) 是 一 个 分 布 ， 所 以 可 根据 该 分 布 进行 随机 采样 ， 得 
到 采样 点 。 
问题 二 : 如 何 求 平均 ? 





答 ， 根 据 分 布 T(z) REL 后 ， 在 样本 点 处 计算 ie ， 并 对 所 有 


样本 后 处 的 值 求 均值 : 











FDA (4.15) 


A EWER H BRE RS TIE EAR JR 
piihia 的 计算 。 设 X 表示 随机 变量 ， 且 服从 概率 分 布 
T(z), HRIC) 的 期 户 


函数 9(Z) 的 期 望 计 算 公式 为 


sr a 


利用 蒙特 卡 风 的 方法 计算 该 式 很 简单 ， 即 不 断 地 从 分 布 fT(Z) 中 采 
样 ， 然 后 对 这 些 9(7i) 取 平 均 便 可 近似 9(Z) 的 期 望 。 这 也 是 4.1 节 中 估 
计 值 函数 的 方法 。 只 不 过 那里 的 一 个 样本 是 一 个 episode， 每 个 episode 
产生 一 个 状态 值 函 数 ， 蒙 特 卡 罗 的 方法 估计 状态 值 函数 就 是 把 这 些 样 本 
点 处 的 状态 值 函 数 加 起 来 求 平均 ， 也 就 是 经 验 平均 。 

然而 ， 当 目标 分 布 T(Z) ”非常 复杂 或 未 知 时 ， 我 们 无 法 得 到 目标 分 
布 的 采样 点 ， 无 法 得 到 采样 点 就 无 法 计算 (4.15) 式 ， 也 就 无 法 计算 平 
均值 。 这 时 ， 我 们 需要 利用 统计 学 中 的 各 种 采样 技术 。 

常用 的 采样 方法 有 两 类 。 第 一 类 是 指定 一 个 已 知 的 概率 分 布 p(X) 
用 于 采样 ， 指 定 的 采样 概率 分 布 称 为 提议 分 布 。 这 类 采样 方法 包括 拒绝 
采样 和 重要 性 采样 。 此 类 方法 只 适用 于 低 维 情况 ， 针 对 高 维 情况 常 采 用 
第 二 类 采样 方法 ， 即 马尔 科 夫 链 蒙 特 卡 罗 的 方法 。 该 方法 的 基本 原理 是 
从 平稳 分 布 为 的 马尔 科 夫 链 中 产生 非 独立 样本 。 下 面 我 们 简单 介绍 这 
些 方法 。 

(1) 拒绝 采样 。 

当 目 标 分 布 7(Z) 非常 复杂 或 未 知 时 ， 无 法 利用 目标 分 布 给 出 采样 
点 ， 那 么 怎么 办 呢 ? 一 种 方法 是 采用 一 个 易于 采样 的 提议 分 布 P(Z) ， 
如 高 斯 分 布 进行 采样 。 可 是 ， 如 果 用 提议 分 布 D(Z) 采样 ， 那 么 所 产生 
的 样本 服从 提议 分 布 P(z) 而 不 服从 目标 分 布 T(Z) 。 所 以 ， 为 了 得 到 符 
合 目标 分 布 T(X) 的 样本 ， 需 要 加 工 由 提议 分 布 P\Z) 得 到 的 样本 。 接 收 
符合 目标 分 布 的 样本 ， 拒 绝 不 符合 目标 分 布 的 样本 。 

(2) 重要 性 采样 。 

重要 性 采样 我 们 已 经 在 4.1 节 做 了 比较 详细 的 介绍 。 


(3) MCMC 方 法 。 

MCMC 方 法 被 视 为 二 十 世纪 Top 10 的 算法 。MCMC 方 法 全 称 为 马尔 
科 夫 链 蒙 特 卡 罗 方 法 。 当 采样 空间 的 维 数 比 较 高 时 ， 拒 绝 采 样 和 重要 性 
采样 都 不 实用 。MCMC 采 样 的 方法 原理 与 拒绝 采样 、 重 要 性 采样 的 原理 
有 本 质 的 区 别 。 拒 绝 采 样 和 重要 性 采样 利用 提议 分 布 产 生 样 本 点 ， 当 维 
数 很 高 时 难以 找到 合适 的 提议 分 布 ， 采 样 效率 差 。 MCMC 的 方法 则 不 
需要 提议 分 布 ， 只 需要 一 个 随机 样本 点 ， 下 一 个 样本 会 由 当前 的 随机 样 
本 点 产生 ， 如 此 循环 源源 不 断 地 产生 很 多 样本 点 。 最 终 ， 这 些 样本 点 服 
从 目标 分 布 。 

如 何 通 过 当前 样本 点 产生 下 一 个 样本 点 ， 并 保证 如 此 产生 的 样本 服 
从 原 目 标 分 布 呢 ? 

它 背 后 的 定理 是 : 目标 分 布 为 马 氏 链 平稳 分 布 。 那 么 ， 何 为 马 氏 链 
平稳 分 布 ? 

简单 说 就 是 该 目标 分 布 存在 一 个 转移 概率 矩阵 了 ”， 且 该 转移 概率 
满足 : 


nj) =) wi) Py ;是 方程 rP 二 7 的 唯一 非 负 解 。 


当 转 移 矩 阵 书 满足 上 述 条 件 时 ， 从 任意 初始 分 布 ro 出发， 经 过 一 
BES TEAR, DAT 都 会 收敛 到 目标 分 布 T 。 因 此 ， 假 设 我 们 已 经 知 
道 了 满足 条 件 的 状态 转移 概率 矩阵 已 ”， 那 么 我 们 只 要 给 出 任意 一 个 初 
始 状态 Zo ， 则 可 以 得 到 一 个 转移 序列 LoT, EnEn 。 如 果 该 马 
氏 链 在 第 n 步 已 经 收敛 到 目标 分 布 T ， 那 么 我 们 就 得 到 了 服从 目标 分 布 
T PJER TEn, Enti o 

现在 问题 转化 为 寻找 与 目标 分 布 相对 应 的 转移 概率 已 ， 那 么 如 何 构 
造 转 移 概 率 呢 ? 

转移 概率 P 和 分 布 T\Z) 应 该 满足 细致 平稳 条 件 。 所 谓 细致 平稳 条 
件 ， 即 


n (4) Pi; =n (j) Pri for all i,j 


接 下 来 ， 如 何 利用 细致 平衡 条 件 构 造 转移 概率 呢 ? 
我 们 可 以 这 样 考 虑 : 加 入 已 有 的 一 个 转移 滤 阵 为 Q 的 号 氏 链 ， 这 样 
任意 选 的 转移 算 阵 通 闸 情 况 下 并 不 满足 细致 平衡 条 件 ， 也 束 古 


p(i)g(i,j) pp(I) (2) 

既然 不 满足 ， 我 们 就 可 以 改造 9(i,j) ， 使 之 满足 。 改 造 的 方法 是 加 

入 一 项 Q(i,j) 使 得 
Pp(D)q(i,)) oa(i,j) =p) G, ial, i) 
问题 是 如 何 取 Q(i,j) e? 一 个 简单 的 想法 是 利用 式 子 的 对 称 性 ， 即 
a(i j) =p()a,t), a,i) =p@a,7) 

其 中 Q(i,j) 被 称 为 接受 率 。 

MCMC 采 样 算 法 可 总 结 为 以 下 步骤 。 

D 初始 化 马 氏 链 初始 状态 和 o 三 Zo ; 

Xt =0, 1,2, ， 循 环 以 下 第 @ 一 @ 步 ， 不 断 采 样 ; 

© Ay AN RRRANX 二 Zz ， 采 样 y~4 (slay) , 

D 从 均匀 分 布 中 采样 ~Uniform10,1]，; 

© tuxu<a(x,y) =pwaaly) ， 则 接受 转移 2 sy, EF 
时 刻 的 状态 A 5Y ; 

© 否则 不 接受 转移 ， 即 从 :+1 二 2 。 


NI REAR, EFREM, MCMC RESIT RK E n] 
改 与 为 


oe, = min | Poort 1) ， 采 样 这 种 接受 率 的 算法 称 为 
p(x.) p(y|x,) 


Metropolis-Hastings 7% « 
4.3 基于 Python 的 编程 实例 


在 这 一 节 中 ， 我 们 用 Python 和 和 家 特 卡 多 方法 解雇 机 套 人 找 金币 的 问 
题 。 

绽 特 卡 艾 方法 解决 的 是 无 模型 的 强化 学 习 问 题 ， 基 本 思想 是 利用 经 
验 平 均 代 蔡 随 机 变量 的 期 望 。 因 此 ， 利 用 稼 特 卡 多 方法 评 售 案 略 应 该 包 
括 两 个 过 程 : 模拟 和 平均 。 

模拟 束 是 产生 及 样 数据 ， 平 均 则 是 根据 数据 得 到 值 函 数 。 下 面 我 们 
以 利用 肥 特 卡 罗 方 法 估计 随机 束 略 的 值 函 数 为 例 做 详细 说 明 。 

1. 随 机 未 上 略 的 样本 产生 : 模拟 

图 4.10 为 家 特 卡 多 方法 的 采样 过 程 。 访 采样 函数 包括 两 个 大 循环 ， 
第 一 个 大 循环 表示 采样 多 个 样本 序列 ， 第 二 个 循环 表示 产生 有 共 体 的 每 个 
样本 序列 。 需 要 注意 的 是 ， 每 个 样本 序列 的 初始 状态 都 是 随机 的 。 因 为 
评 佑 的 是 随机 均匀 分 布 的 全 略 ， 所 以 在 采样 的 时 候 ， 动 作 都 是 根据 随机 
图 数 产 生 的 。 每 个 样本 序列 包括 状态 序列 ， 动 作 序列 和 回报 序列 。 


月 特 卡 多 梓 本 采集 


def gen randompi sample(self, num): 
state sample = | 
action sample = [] 


—s 


reward sample 
for i in range (num) : 


s_tmp = [] 随机 初始 化 每 回合 的 初始 状态 

a tmp = | | 

r tmp = | a 

s = self. stateslint (random. random() * len(self. states) ) | 

t = False | ei 

while False == t: * 产生 一 个 状态 序列 ， 如 81 一 8 一 83 一 57 BV) 
a = self. actions[int (random. random() len(self. actions)) | 
t, sl, r = self. transform(s, a) 


s tmp. append (s) 
r tmp. append (r) 
a tmp. append (a) 
S = Sl 
state sample. append(s tmp) * 样本 包含 多 个 个 状态 序列 
reward sample. append (r_ tmp) 
action sample. append(a tmp) 
return state sample, action sample, reward sample 


图 4.10 蒙特 卡 罗 样 本 采集 

图 4.11 为 蒙特 卡 罗 方 法 进行 策略 评估 的 Python 代码 实现 。 该 函数 需 
要 说 明 的 地 方 有 三 处 。 

第 一 处 : 对 于 每 个 模拟 序列 逆 回 计算 该 序列 的 初始 状态 处 的 累积 回 
报 ， 也 束 是 说 从 序列 的 最 后 一 个 状态 开始 往 前 依次 计算 ， 最 终 得 到 初始 
状态 处 的 系 积 回报 为 G , 计算 公式 为 Gi 三 Riri HYG 

第 二 处 : 正 问 计 算 每 个 状态 所 对 应 的 累积 函数 ， 计 算 公 式 为 
Gi = (G, — Ria) /¥ ? 

第 三 处 : 求 均值 ， 即 累积 和 对 该 状态 出 现 的 次 数 求 均值 。 相 应 于 第 
1 节 中 的 每 次 访问 绽 特 卡 罗 方 法 。 

图 (4.10) 和 图 (4.11) 中 的 Python 代码 合 起 来 组 成 了 基于 蒙特 卡 
罗 方 法 的 评估 方法 。 下 面 ， 我 们 实现 基于 蒙特 卡 罗 的 强化 学 习 算 法 。 

如 图 4.12 和 图 4.13 所 示 为 蒙特 卡 罗 方 法 的 伪 代 码 ， 其 中 关键 代码 在 


图 4.13 中 实现 。 比 较 图 4.13 和 有 聚 特 卡 罗 策 略 评 估 图 4.11， 我 们 不 难 发 
现 ， 蒙 特 卡 罗 强 化 学 习 每 次 迭代 评估 的 都 是 e-greedy 策 略 。 


蒙特 卡 罗 评 估 
def mc(gamma, state sample, action sample, reward sample): 
vfunc = dict) 
nfune = dict () 
for s in states: 
vfunels| = 0.0 
nfuncls| = 0.0 
for iterl in range(len(state sample)): 逆向 计算 初始 状态 的 累积 回报 
G= 0.0 ae 
第 一 处 : * for step in range(len(state sampleliterl])-l,-l,-l): 机 一 9 一 5 一 9 
G += gamma 
_ G += reward sampleliter1] [step] 正 向 计算 每 个 状态 处 的 累 和 回报 
第 二 处 :一 。 for step in range(len(state_sampleliterl])):_— 
S = ştate_sampleliterl] [step] ~ 
vfunc[s] += G 
nfunc[s] += 1.0 
G = reward sampleliter!] [step] 
G /= gamma 
第 三 处 :一 for s in states: 4 
if nfuncls] > 0. 000001: 
vfunc[s] /= nfunc[s] 
print ( me’ ) 
print (vfune) 
return (vfunc) 


每 个 状态 处 求 经 验 平均 


图 4.11 蒙特 卡 罗 策 略 评估 
如 网 4.12 和 图 4.13 所 示 是 肥 特 卡 罗 强 化 学 习 算 法 的 Python 实现 。 


和 


蒙特 卡 罗 方 法 伪 代 码 
初始 化 所 有 : 


s€S,a€ A(s),O(s,a)€ arbitrary, 


z (s) < arbitrary, Returns (s,a) © empty list 


Repeat: 


随机 选择 5, €5, 4 € A(S,) 


， 从 50, 志 开始 以 策略 
生成 一 个 实验 (episede) ， 对 每 对 在 这 个 实验 中 出 现 
的 状态 和 动作 ，s, a: 
Gs,a 每 次 出 现 后 的 回报 
将 G 附 加 于 回报 Returns (s, a) 上 
Q(s,a) — average(Returns(s,q)) 对 回报 取 均 值 

对 该 实验 中 的 每 一 个 s: 


m(s) arg max, O(s,a) 


策略 改进 


蒙特 卡 罗 方法 Python 代码 


def me(num iterl, epsilon): 
x=[] 
y=[J 
n =dict() 
qfunc = dict() 
for s in states: 
for a in actions: 
qfunc["%d %s"%(s,a)] = 0.0 
n["%d %s"%(s,a)] = 0.001 
for iter! in range(num iter1): 
x.append(iter!) 
y.append(compute_error(qfunc)) 
s sample = [] 
a sample = [] 
r sample = [] 
s = states int(random.random() * len(states))] 
t = False 
count = 0) 





图 4.12 驼 特 卡 罗 方 法 伪 代 码 及 Python 代码 


蒙特 卡 罗 方 法 伪 代 码 


蒙特 卡 罗 方 法 python 代 码 续 


while False == t and count < 100: 


初始 化 所 有 : 
s€S,ae€ A(s),0(s,a)¢ arbitrary, 
z (s) arbitrary, Returns (s,a) € empty list 
Repeat: 
随机 选择 SESA EALS) ， 从 S36, 为 开始 以 策略 
生成 一 个 实验 (episode) ， 对 每 对 在 这 个 实验 中 出 现 
的 状态 和 动作 ，s, a: 
G +-s,a 每 次 出 现 后 的 回报 
将 G 附 加 于 回报 Returns(s, a) 上 
Q(s,a) taverage(Returns(s,a)) 对 回报 取 均 值 
对 该 实验 中 的 每 一 个 s: 
策略 改进 


m(s) arg max, O(5,a) 


a = epsilon_greedy(qfunc, s, epsilon) 
t, sl, r = grid.transform(s,a) 
§ sample.append(s) 
r sample.append(r) 
a_sample.append(a) 
s=sl 
count += | 

g=0.0 

for i in range(len(s_sample)-1, -1, -1): 
g *= gamma 
g+=r_sample{i] 

for i in range(len(s_sample)): 
key = "%od_%s"%(s sample[i], a_samplefi]) 
n{key] += 1.0 


+ qfune{key] = (qfunc[key] * (n{key]-1) + g) / n[key] 


g-=r_sample[i] 
g /= gamma 


return gfunc 





图 4.13 SIF RY TEATS Python Ay 


4.4 习题 


LIRA FTE AY WA ee AB ES oe HY, SS] [ial el o 
2. 什 么 是 同 案 略 Con-policy) , IAR Coff-pilicy) ， 两 者 


ITER AT EIT o 
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4. 于 动 编写 正 态 分 布 的 随机 样本 生成 方法 。 


5 Fe FAY TBI Ae op AY a TE 
5.1 基于 时 间 差 分 强化 学 习 算 法 理论 讲解 
第 4 章 我 们 已 经 前 述 了 无 模型 强化 学 习 最 基本 的 方法 壹 特 卡 罗 方 
法 。 本 章 我 们 阐述 为 外 一 个 无 模型 的 方法 时 间 差 分 方法 。 
时 间 委 分 〈Temporal-Difference， 人 简称 TD ) 方法 (如 图 5.1 所 示 ) 是 


为 一 种 无 模型 强化 学 习 方 法 ， 也 是 强化 学 习 理论 中 最 核心 的 内 容 。 与 动 
态 规划 的 方法 和 蒙特 卡 罗 的 方法 相 比 ， 时 间 差 分 方法 的 主要 不 同 在 于 值 


函数 的 估计 。 
序 贯 决策 问题 
J 
马尔 科 夫 决策 过 程 MOP (S,A,P,R,y) 
(S,A,P,R,y) (S,A,P? R? y? ) 
—— in 无 模型 的 强化 学 习 方 法 


策略 迭代 ee 策略 搜索 


(TD 方法 ) 
图 5.1 强化 学 习 方法 分 类 


如 图 5.2 所 示 为 用 动态 规划 的 方法 计算 值 函 数 。 








OOC LAJA TJO 


图 5.2 用 动态 规划 方法 计算 信函 数 

下 面 的 式 《〈5.1) 征 值 函数 估计 的 计算 公式 ， 从 中 可 以 看 到 ， 用 动 
态 规划 方法 〈《DP) 计算 全 函数 时 用 到 了 当前 状态 s 的 所 有 后 继 状 态 $ 处 
的 值 函 数 。 值 函数 的 计算 用 到 了 bootstrapping 的 方法 。 所 谓 bootstrpping 
本 意 是 指 目 举 ， 此 处 是 指 当 前 值 函 数 的 计算 用 到 了 后 继 状 态 的 全 函数 。 
即 用 后 继 状态 的 信函 数 佑 计 当 前 全 函数 。 要 特别 注意 的 是 ， 此 处 后 继 的 
状态 是 由 模型 公式 p(s",7|91,4a) 计算 得 到 的 。 由 模型 公式 和 动作 集 ， 可 
以 计算 状态 s 所 有 的 后 继 状 态 s:。 当 没有 模型 时 ， 后 继 状 态 无 法 全 部 得 
到 ， 只 能 通过 试验 和 采样 的 方法 每 次 试验 得 到 一 个 后 继 状 态 s”。 


V (5,) 全 [Raa + W (S141) | = 》 (al9) N p(surlSoa) Ir + wW(s')] (5.1) 
ERW, BATT BY WAR Be RR 7 MWA VA A 8 oe FSS i VP 
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图 5.3 用 蒙特 卡 罗 方 法 计算 值 函 数 
综 特 卡 罗 方 法 利用 经 验 平 均 估 计 状 态 的 值 疯 数 。 此 处 的 经 验 是 指 一 
次 试验 ， 而 一 次 试验 要 等 到 终止 状态 出 现 才 结束 (参见 图 5.3) 。 公 式 
(5.2) 中 的 Gt 是 状态 21 处 的 折扣 累积 回报 值 。 
V (S) —V(S;) +a(G,—V(S;)) (52 J 


FAC BAS KW ATI» RERE IIN A m EE SB ET AOR 


所 以 学 习 速 度 慑 ， 学 习 效 率 不 高 。 通 过 对 两 者 的 比较 ， 我 们 很 上 自然 地 会 
想到 : 能 不 能 借鉴 动态 规划 中 bootstrapping 的 方法 ， 在 试验 未 结束 时 就 
估计 当前 的 值 函 数 呢 ? 

答案 是 肯定 的 ， 这 是 时 间 兰 分 方法 的 精 艇 。 时 间 差 分 方法 结合 了 月 
特 卡 罗 的 采样 方法 〈 即 做 试验 ) 和 动态 规划 方法 的 bootstrapping CH 
后 继 状 态 的 值 函数 估计 当前 值 函 数 ) ， 它 的 计算 过 程 如 图 5.4 所 示 。 





图 5.4 用 时 间 差 分 方法 计算 值 函 数 
用 时 间 差 分 方法 CTD) 将 值 函 数 的 公式 更 新 为 
V (S) — V(S,) 十 a(R HW (Sit) —V(S;)) (5.3) 


HP Revi + W (Siri) 称 为 TD Ate, & (5.2) 中 的 G， 相 对 应 ， 
Pe AS [FZ Nb ETD H PAA f bootstrapping 7 i214 tt 4 AW BA BL 
6,=Risit W (S141) — Vis, BRAT D (it 4 o 


下 面 我 们 从 原始 公式 出 友 ， 了 解 动态 规划 (DP) 、 聚 特 卡 罗 方 法 
(MC) 和 时 间 差 分 方法 CTD) 的 不 同 之 处 。 

图 5.5 是 用 三 种 方法 估计 值 图 数 的 异同 点 。 从 中 可 以 看 到 ， 稼 特 卡 
罗 的 方法 使 用 的 是 值 函数 最 原始 的 定义 ， 访 方法 利用 所 有 回报 的 宗 积 和 
估计 值 函 数 ， 动 态 规 划 方 法 和 时 间 闫 分 方法 则 利用 一 步 预 测 方 法 计算 当 
MASEKO EMRE ANH I bootstrapping 方法 ; 不 同 的 是 ， 
动态 规划 方法 利用 模型 计算 后 继 状 态 ， 时 间 委 分 方法 利用 试验 得 到 后 继 


Pd MC: 利用 采样 平均 回报 远近 期 户 
v, (s)= E, [G, |S, = s] 


=f. bas als, = s 
= E| Ra +79 y Rur |S, = | 


=E, pT + yv, (S, JIS, = s | 









DP :期 望 值 由 模型 来 提供 ， 但 是 利 


TD: 联合 了 MC 和 和 DP， 采样 期 望 值 ， 
并 利用 真 值 的 当前 估计 值 "(5..,) 





用 真 值 的 当前 估计 值 "(5..,) 
图 5.5 三 种 方法 的 异同 

从 统计 学 的 角 来 看 ， 蒙 特 卡 罗 方 法 CMC) 和 时 间 差 分 方法 (TD) 
都 是 利用 样本 估计 值 浮 数 的 方法 ， 哪 种 更 好 昵 ? 既然 都 是 统计 方法 ， 我 
们 就 可 以 从 期 望 和 方 甜 两 个 指标 对 比 两 种 方法 。 

BCE BRE RD iE» 

蒙特 卡 罗 方 法 中 的 返回 值 C, = Risi tyRisa te t+ y+ Rr ， 其 
期 望 便 是 值 疯 数 的 定义 ， 因 此 脓 特 卡 罗 方 法 是 无 偏 估计 。 但 是 ， 脓 特 卡 
罗 方 法 每 次 得 到 的 G， 值 要 等 到 最 终 状 态 出 现 ， 在 这 个 过 程 中 会 经 历 很 
多 随机 的 状态 和 动作 ， 每 次 得 到 的 G 随机 性 很 大 ， 因 此 尽管 期 望 等 于 
FA, (AAA K. 

我 们 再 来 看 下 时 间 差 分 方法 。 

时 间 差 分 方法 的 TD 目标 为 R41 十 XV (Si41)， 若 V(S441) 采用 真实 
值 ， 则 TD 估计 也 是 无 偏 估计 ， 然 而 在 试验 中 了 09, 用 的 也 是 估计 值 ， 
因此 时 间 天 分 估计 方法 属于 有 偏 估计 。 与 蒙特 卡 罗 方 法 相 比 ， 时 间 关 分 
方法 只 用 到 了 一 步 随 机 状态 和 动作 ， 因 此 TD 目标 的 随机 性 比 蔷 特 卡 多 
方法 中 的 Gi 要 小 ， 相 应 的 方差 也 比 蒙特 卡 罗 方 法 中 的 方差 小 。 

时 间 径 分 方法 包括 同 策 略 的 Sarsa 方 法 和 异 策 略 的 Qlearning 方 法 。 如 
图 5.6 所 示 为 同 策 略 Sarsa 强 化 学 习 算 法 ， 需 要 注意 的 是 方 框 中 代码 表示 
同 策略 中 的 行动 倘 略 和 评估 的 策略 都 是 e-greedy 琐 上 略 。 与 了 壹 特 卡 岁 方法 


不 同 的 是 ， 它 的 全 函数 更 新 不 同 。 
1. 初始 化 Ols,a), Vs ES, a E A(S) SESH, y 


2. Repeat: 
给 定 起 始 状态 s， 并 根据 仿效 策略 在 状态 。 选择 动作 a {TOURER MIMOIRRRELE e ARR 


Repeat (对 于 一 幕 的 每 一 步 ) 
(a) 根据 & 贪 林 第 略 在 状态 s 选择 动作 a ， 得 到 回报 r 和 下 一 个 状态 s”， 在 状态 s' 





根据 € 贪 林 策略 得 到 动作 a 
(b) Olsa) Ols a)+ afr+ rO(s,a)-Qls,a )] 
(Cj s=s' , ata’ 
Until s 是 终止 状态 
Until 所 有 的 Q(s, a) Rich 
3， 输 出 最 终 策略 : m(s) = argmax Q(s, a) 
图 5.6 同 策略 Sarsa 强 化 学 习 算 法 

如 图 5.7 所 示 为 异 末 上 略 的 Qlearning 方 法 。 与 Sarsa 方 法 的 不 同 之 处 在 


T3 Com BÍT Ri H -greedy Rig, M 
H ER R E A A SE R E o 


i Mint Q (s, a), vsES, a E A(s), 给 定 参 数 w， Y 


2. Repeat: 
给 定 起 始 状态 s， 并 根据 5 RARE s 选择 动作 a 


Repeat (对 于 一 莫 的 每 一 步 ) | 行动 策略 为 s RAR 





ax Sr TED 
(b) O(s,.4,)O(s,.4 a .a)- ga ) 
(c) s=s’ , a=a 
Until s 是 终止 状态 
Until 所 有 的 Q(s,Q) 收敛 
3， 输 出 最 终 第 略 ， m(s) = argmax Q(s, a) 


N BARBRA Rt RR 


图 5.7 Fe SRE Qlearning 


TD 方法 除了 常用 的 Sarsa 方 法 和 Qlearning 方 法 ， 还 包括 TD(A) X 


法 ， 下 面 我 们 详细 阐述 ZDP(A) 方法 的 来 龙 去 脉 。 

从 图 5.4 我 们 看 人 到， 在 更 新 当前 值 函 数 时 ， 用 到 了 下 一 个 状态 的 值 
函数 。 我 们 可 以 据 此 推理 ， 能 否 利 用 后 继 第 二 个 状态 的 值 函 数 米 更 新 当 
前 状态 的 全 函数 呢 ? 

答 采 是 肯定 的 ， 那 么 如 何 利 用 公式 计算 呢 ? 

我 们 用 G2 二 Ryi1 十 YV(S441) 表示 TD 目标 ， 利 用 第 二 步 值 函数 
ait 4 AAA RRNAGO = Rit Rise t+ VV Sis.) 。 

以 此 类 推 ， 利 用 第 n 步 的 值 函 数 更 新 当前 值 函数 可 表示 为 

Ge” = fri 二 Yltsrz 十 … 十 yo" Reta Tr A Coes ve) o 

如 图 5.8 所 示 为 利用 n 步 值 函数 估计 当前 值 疯 数 的 示意 图 。 我 们 再 审 
人 钢 一 下 刚才 的 结论 : 可 以 利用 n 步 值 函数 来 估计 当前 值 函 数 ， 也 就 是 议 
当前 值 疯 数 有 n 种 估计 方法 。 


TD(1-step) TD(2-step) TD(n-step) 


Sr 
Rea Reet 
Se+1 
G Reas 
St+2 
OG" l 


Ge 
图 5.8 n 步 预测 估计 值 函 数 
哪 种 估计 信 更 接近 真实 信 呢 ? 
我 们 并 不 知道 ， 但 是 可 侣 利用 加 权 的 方法 融合 这 n 个 佑 计 信 ? 即 


TD(A) 的 方法 [4 。 
EGO 前 乘 以 加 权 因 子 (1 一 和 和 ”” ， 之 所 以 要 乘 以 加 权 ， 原 因 在 


于 
Gd = (1—A)GP + A-A)NAGP +--+ I— NMG 
~ [0-A + I A)AF + AAA VS) (5.4) 
=V (S,) 


利用 GA 更 新 当前 状态 的 值 函 数 的 方法 称 为 TD(A) 的 方法 。 一 般 可 
以 从 两 个 视角 理解 TD (A) 。 


如 图 5.9 所 示 为 TD( 和 A 和) 方法 的 前 向 视角 解释 。 假 设 一 个 人 坐 在 状态 
bie BAHT» BUT eR INAS © {ES IAS HE BB BL 
时 ， 从 TD(A) 的 定义 中 可 以 看 到 ， 它 需要 用 将 来 时 刻 的 值 函 数 。 也 就 
是 说 ，TD(A) 前 向 观点 通过 观看 将 来 状态 的 值 函 数 来 估计 当前 的 值 函 
数 。 

第 一 个 视角 是 前 向 视角 ， 该 视角 也 是 GF 的 定义 。 





( F me 
on Tim 
图 5.9TD (A) 的 前 向 视角 
V (S) -V (S,) +a(G®—V(S.)) (5.4) 


GP = 0AA AGO, w 
n=1 


Ge = epi Yigg + VO Rin + VV (Setn) 


利用 TD(A) 的 前 向 观点 估计 值 函数 时 ， 的 计算 用 到 了 将 来 时 刻 的 
值 函数 ， 因 此 需要 整个 试验 结束 后 才能 计算 ， 这 和 蒙特 卡 罗 方 法 相似 。 
是 否 有 某 种 更 新 方法 不 需要 等 到 试验 结束 就 可 以 更 新 当前 状态 的 值 函 
数 ? 

有 ! 这 种 增 量 式 的 更 新 方法 需要 利用 TD (和) 的 后 向 观点 。 

如 图 5.10 所 示 为 TD( 和 ) 后 向 观点 示意 图 。 人 骑 坐 在 状态 流 上 ， 手 
里 拿 着 话 简 ， 面 朝 已 经 经 历 过 的 状态 流 ， 获 得 当前 回报 并 利用 下 一 个 状 
态 的 值 函数 得 到 TD 偏差 后 ， 此 人 会 向 已 经 经 历 过 的 状态 喊话 ， 告 诉 这 
些 状态 处 的 值 函数 需要 利用 当前 时 刻 的 “TD 偏差 更 新 。 此 时 过 往 的 每 个 
状态 值 函数 更 新 的 大 小 应 该 与 距离 当前 状态 的 步 数 有 关 。 假 设 当前 状态 
为 8 ，TD 偏 差 为 6，， 那 么 %-; 处 的 值 函数 更 新 应 该 乘 以 一 个 衰减 因子 


YA ， 状 态 5:-2 处 的 值 函数 更 新 应 该 乘 以 (7AX)”， 以 此 类 推 。 


Or / 
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图 5.10 TD (A) 的 后 向 观点 
TDA) 更 新 过 程 如 下 。 
首先 ， 计 算 当 前 状态 的 TD 偏差 : 51 二 Reii 十 YV (S4451) 一 了 09, 


、 TA 尼 1， if SF 8; 
其 次 ， 更 新 适合 度 轨迹 ，B,(s) = 
有 其 人 从 更 新 适合 上 度 轨 迹 (8) am ed. if S= S; 


最 后 ， 对 于 状态 空间 中 的 每 个 状态 s， 更 新 人 函数 : 


Vis) —V(s) +06, EF; (s) 
HEE, (8) 称 为 适合 度 轨 迹 。 
现在 我 们 比较 一 下 TD(AN) 的 前 向 观点 和 后 向 观点 的 异同 。 
C1) 前 同 观 点 雷 要 等 到 一 次 试验 之 后 再 更 新 当前 状态 的 值 疯 数 ; 
后 同 观 点 不 需要 等到 值 函数 结束 后 再 更 狐 值 函数 ， 而 是 每 一 步 都 在 更 新 
值 函数 ， 是 增 量 式 方 法 。 
(2) 前 同 观 点 在 一 次 试验 结束 后 更 新 值 图 数 时 ， 更 新 完 当 前 状态 
的 值 函 数 后 ， 此 状态 的 值 函数 就 不 再 改变 。 后 同 观 点 在 每 一 步 计 算 完 当 
前 的 TD 误差 后 ， 其 他 状态 的 值 函数 需要 利用 当前 状态 的 TD 误 过 更 新。 
(3) 在 一 次 试验 结束 后 ， 前 同 观 点 和 后 同 观 点 每 个 状态 的 值 函 数 
的 更 新 总 量 是 相等 和 的， 都 是 GA o 
为 了 说 明 前 向 观点 和 后 向 观点 的 等 价 性 ， 我 们 从 公式 上 对 其 进行 严 
格 地 证 明 。 
首先 ， 当 和 三 0 时， 只 有 当前 状态 值 更 新 ， 此 时 等 价 于 之 前 说 的 
TD 方法 。 所 以 TD 方法 叉 称 为 TD (0) 方法 。 
其 次 ， 当 入 二 1 时 ， 状 态 s 值 函数 总 的 更 新 与 蒙特 卡 罗 方 法 下 的 更 新 
总 数 相 同 : 
f Hybi ty sea Hey r 
= Raa t W(Si41) — V (S) 
+ Rite HY V (Si42) — W(S:41) 
Hy’ Rita ty°V (Sia) — 7°V (Si+2) 


+*+ Re +y ~V (Sr) an 2-27 (Ss) 
对 于 一 般 的 A , BIAS Ja lO: 


G;—V(S,) = 
-V (89) + AA)" (Rigi HWS) 
二 村 一 DX (Rei t YRera HY’V (Si42)) 
+ A—A)A* (Riri HYR + Y° Rira t V°V (Sit) ) 十 … 
=- V (84) + (yA)? (Riza HW (Sit) — YAV (Si41)) 
T (YA)! (Ri+2 + W (Ss) — YAV (S42)) 
J (YA)? (Ri+3 + W(Si+3) — YAV (Si 3)) 
Laona 
= (YA)? (Rig + W(Si41) — VS)) 
十 (7A) (Rise + W(Si42) —V(S:41)) 
T (YA)? (Ri+3 + W(Si43) — V (Si+2)) pon 
= et Aba + (YA) baat 


fin, RIIA H Sarsa (A) 算法 的 伪 代 码 ， 如 图 5.11 所 示 。 


1. 初始 化 0fsaj,vsesS.ae4f(3),. 给 定 参数 w y 
2，Repeat: 行动 策略 和 评估 策略 都 是 E ARR 
给 定 起 始 状态 s， 并 根据 6 贪 殊 策 略 在 状态 s 选择 动作 a， 对 所 有 的 seS,ae A(s), E(s,a)=0 
Repeat (对 于 一 幕 的 每 一 步 ) 
(a) 根据 & 贪 禁 策 略 在 状态 






(b) d<—r+yQO(s',a')-O(s,a), E(s,a)— E(s,a)+1 
(c) SPAR s ES, a E€ A(s): O (s.a) e O(s,a)+adE(s,a), E(s,a)e yAE(s,a) 
(d) s=s’ , a=a’ 
Until s 是 终止 状态 
Until 所 有 的 Q(s,a) 收 敛 
3， 输 出 最 终 策略 : 7(5)=arg max Q(s,a) 


图 5.11 Sarsa 算 法 的 伪 代 码 


5.2 基于 Python 和 gym 的 编程 实例 


ES TH) A op TIE A Behe BE TT a ETC RA EN A, AEE SRM PP Ai 
ES al ri SRE LEI. ASABE ITAA IN BRE RS AIR SE, BRAT TH] 22 


分 的 介绍 也 从 策略 评估 开始 。 基 于 时 间 差 分 方法 的 模拟 与 基于 蒙特 卡 罗 
方法 的 模拟 类 似 ， 都 需要 从 与 环境 的 交互 中 获取 数据 。 在 做 评估 时 ， 我 
们 假设 已 经 得 到 数据 。 如 图 5.12 所 示 为 时 间 径 分 方法 对 案 略 评估 的 
Python 代 人 码 。 这 里 需要 注意 两 个 地 方 。 

第 一 处 : 在 最 里 层 的 for 循 环 中 ， 处 理 的 是 一 个 时 间 序 列 ， 即 一 幕 数 
据 。 

第 二 处 : TD 更 新 方程 为 
V(S,) —V(S,) ta(Ri41 +W (S141) 一 (9,) ) 。 


时 间 差 分 方法 评估 
def td(alpha, gamma, state sample, , reward sample): 
vfunc = dictQ 
for s in states: 
vfunc[s] = random. random() 
for iterl in range(len(state sample)): 
第 一 处 ; *for step in range(len(state sampleliterlj)): > 81 > 82 —? 83 > 87 
s = state sample[iter]] [step] 
r = reward sampleliterljlstep| 
if len(state sampleliter1]]}) | step: 
sl = state sampleliterljlLstep+l | 
next v vfunclsl 
else: 
next v = 0.0 
第 二 处 : > vfunc|s| vfunclsj + alpha * (r + gamma * next v - vfunclsj) 


图 5.12 EN TA) ÆDT IAR R IPP 
G TRR. FROUDE RRR CRS, BDAY AE ABAE A BS 
JS. Al 5.13 是 Sarsa 和 Qlearning 算法 的 盆 代 码 和 Python 代 码 ， 我 们 比较 
它们 的 弄 同 后 。 


蒙特 卡 罗 方法 伪 代 码 蒙特 卡 罗 方 法 Python 代码 
初始 化 所 有 : def mc(num iterl, epsilon): 


se€S,ae A(s),O(s,a)€ arbitrary, 
z (s) < arbitrary, Returns (s,a) + empty list 
qfunc = dict() 
Repeat: for s in states: 
À for a in actions: 
随机 选择 SES, A EALS) , MSA 开始 以 策略 qfunc["%d_%s"%(s,a)] = 0.0 
n["%d %s"%(s,a)] = 0.001 
—AY 全 Am z 
EMR 实验 (episode) , ’ 对 每 对 在 这 个 实验 中 出 现 for iter] in range(num iter! ): 
的 状态 和 动作 ，s, a: ii 7 x.append(iter! ) 


y.append(compute_error(qfunc)) 


G <<-s,a 每 次 出 现 后 的 回报 jit E ae 
将 G 附 加 于 回报 Returns(s, a) E i aa a_sample = [] 


\ i ~œ r sample=[] 
Q(s, a ) + average(Re turns(s,a )) 对 报 取 均值 œ s = states[int(random.random() * len(states))] 
n t= False 
对 该 实验 中 的 每 一 个 4 count = 0 


m(s) arg max, 0(s.a) 策略 改进 





图 5.13 Sarsa 仿 代码 及 Python 实现 
从 Python 实现 中 我 们 看 到 Sarsa 算 法 的 行动 和 评 佑 人 略 都 是 es-greedy 
宋 略 ， 对 评估 宋 略 进行 评估 的 方法 是 TD 方法 。 下 面 我 们 提供 异 东 上 略 的 
Qlearning 算 法 伪 代 人 码 和 Python 实 现 。 
如 图 5.14 所 示 为 Qlearning 算 法 的 伪 代 码 和 Python 实现 。 与 Sarsa 算 法 
不 同 的 是 ，Qlearning 是 异 东 略 强 化 学 习 算 法 ， 即 行动 案 略 为 e-greedy 束 
BA DE i HENS A A SE EAE o 


Qlearning 的 Python 片段 








learning 伪 代 码 
i i def qlearning(num lterl, alpha, epsilon): 
1. 初始 化 Q(s, a), Vs E S, a € A(s), BESMa, y while False == t and count < 100: 
2. Repeat: 行动 策略 为 6 AZAM ee A 
Slr = grid.transform(s,a 
a soe Foyl = 
Repeat( 对 于 一 幕 的 每 一 步 ) qmax = -1.0 
RECAE RR EAS S) -foral in actions: 
ZN . "o 0/ at ‘ 
和 下 一 个 状态 Srl Y if qmax < qfunc["%d_%s"%(s1,a1)]: 
qmax = qfunc["%d_%s"%(s1,a1)] 
)O(5,.4) -O(s,.q) +a] 7, +7maxO(s,,,a)-O(s,,4)| AF keyl ="%d_%s"%(sl al) 
(c) s=s’, a=a’ | Ef 策略 \ ”qtunclkey] = qfunc[key] + alpha * ( \ 
Until s 是 终止 状态 r + gamma * qfunc[key1] - qfunc[key]) 
gI i 目标 策略 为 贪 林 策 申 bo aj 
Until 所 有 的 OAS. 2) a = epsilon greedy(qfunc, sl, epsilon) 





3， 输 出 最 终 策 略 ; r(s) = argmax Q(s, a) count +=] 
i return qfunc 


15.14 Qlearning 伪 代码 及 Python 实现 
在 Qlearning 算法 中 ， 最 关键 的 代码 实现 包括 : TT ATARI 
示 ， 探 索 环 境 的 策略 ， 值 函数 更 新 时 贪 梦 策略 ， 值 函数 更 新 。 下 面 我 们 
= 
(1) Qlearning Hít AE KAER o 
IFREMER, (ARE Ka. X FÍT AIA, 
这 张 表 可 以 看 成 是 二 维 表 ， 其 中 一 维 为 状态 ， 另 一 维 为 动作 。 下 面 以 机 
fa A SR oe TB it HA o 
RAS ZEB) ALL, 2, 3, 4, 5, 6 7, 8] 
AVE lal Alin’, ‘e’, ’s’, w] 
行为 值 函数 可 以 用 字典 数据 类 型 来 表示 ， 其 中 字典 的 索引 由 状态 - 
行为 对 来 表示 。 因 此 行为 信函 数 的 初始 化 为 
afunc = dict() #47 ALE RŽ gfun 
for s in states: 
for a in actions: 
key = “dt s%0”%s(s,a) 
gfun[key] = 0.0 


(2) 探索 坏 境 的 全 上 略 : epsilon A $E R ig- 


#4 He VA HW e-greedy HER RIK AM, e-greedy RK WA FIA TA 


E iT 
1 一 e 十 PrO if a=arg max,Q(s,a) 
T (als) <— 


IO if a#arg max,Q(s,a) 


该 式 子 的 Python 代码 实现 如 下 。 


def epsilon greedy(qfune, state, epsilon): 


# 先 找到 最 大 动作 

amax = 0 

key = “Sd 45" (Stare, actions [0] ) 

qmax = gfunc[key] 

for i in range(len(actions)): # 扫 描 动 作 空间 得 到 了 最 大 动作 信函 数 
key = “ad se™alstete, actions (11) 


q = gqfunc[key] 
LE gmax < az 


qmax = q 
amax = i 
# 概 率 部 分 
pro = [0.0 for i in range(len(actions) ) ] 


pro[amax] += l-epsilon 
for 1 in range(len(actions)): 
pro[i] += epsilon/len(actions) 
## 根 据 上 面 的 概率 分 布 选 择 动作 
r = random. random () 
s = 0.0 
for 1 in range(len(actions) ): 
$ t= pro[i] 
if s>= r: return actions[1i] 
return actions[len(actions) -1] 
(3) (APACE IY, PENE MAER 
We PES VE HY oe SE RMR A EAS As’ AY, (ERR AINE H 
Python 实现 为 


def greedy(qfunc, state): 


amax = 0 
key = Tid 39" ¢ (LaLe;: actions!) 


qmax = qfunc[key] 
for i in range(len(actions)): # AHDE T ISEA RA 
key = “ad os" % (etate, actions [1] ) 
q = gqfunc[key] 
Lt Gia < oF 
qmax = q 
amax = 1 
return actions [amax] 
RTE ERIS LPEE, AIA EATER TRAE PE IZ 
段 代码 的 状态 古 当 前 状态 s 的 下 一 个 状态 s’。 
(4) 信函 数 的 更 新 。 
(EPA BEE HT AS A 


Q na) <— Q(s:,a4) + olr 二 ymaxQ(s;,41,a) 一 Qs | 
代码 实现 为 


key = "cd we" To a) 

# 与 环境 进行 一 次 交互 ， 从 环境 中 得 到 新 的 状态 及 回报 

sl, r, tl, 1 =grid.step(a) 

keyl = "" 

#s1 处 的 最 大 动作 

al = greedy (qfunc, sl) 

Keyl = “sd 787 (51a dl) 

# 利 用 Qlearning DIEE JHE K% 

qfunc [key] = qfunc[key] + alpha* (r+ gamma * qfunc[keyl]-qfunc[key] ) 


5.3 习题 


LESTE At ot RG Bee BE TIA. SAS ANU TIE HY X Hal AK RK o 
2. 如 何 理解 TD (A) 算法 的 前 向 视角 和 后 向 视角 。 


3. 利 用 Sarsa 和 Qlearning 方 法 解雇 下 列 迷 宫 问 题 ， 并 比较 它们 的 差 





4. 修 改 Qlearning PHITRA TES, GEA BURKS ERA, MR Lak 
号 问题 ， 并 试看 比较 两 者 的 优 务 。 


6 基于 信函 数 通 近 的 强化 学 习 方 法 


6.1 基于 值 函 数 逼 近 的 理论 讲解 


前 面 已 经 介 绍 了 强化 学 习 的 基本 方法 : 基于 动态 规划 的 方法 ， 基 于 
蒙特 卡 罗 的 方法 和 基于 时 间 猎 分 的 方法 。 这 些 方法 有 一 个 基本 的 前 提 条 
件 : 状态 空间 和 动作 空间 是 离散 的 ， 而 且 状 态 空 间 和 动作 空 s 间 不 能 太 
ee 


这 些 强化 学 习 方 法 的 基本 步骤 是 先 评估 值 函数 ， 再 利用 值 函数 改善 
当前 的 策略 。 其 中 值 函数 的 评估 是 关键 。 

对 于 模型 已 知 的 系统 ， 可 以 利用 动态 规划 的 方法 得 到 值 函数 ， 对 于 
模型 未 知 的 系统 ， 可 以 利用 蒙特 卡 罗 的 方法 或 时 间 差 分 的 方法 得 到 值 函 
数 。 

注意 ， 这 时 的 值 函 数 其 实 是 一 个 表格 。 对 于 状态 值 函数 ， 其 索引 是 
状态 ， 对 于 行为 值 函数 ， 其 索引 是 状态 -行为 对 。 值 函数 的 迭代 更 新 实 
际 上 就 是 这 张 表 的 迭代 和 更新。 因此 ， 之 前 讲 的 强化 学 习 算 法 又 称 为 表格 
型 强化 学 习 。 对 于 状态 值 函数 ， 其 表格 的 维 数 为 状态 的 个 数 |2| ， 其 中 


S 为 状态 空间 。 若 状态 空间 的 维 数 很 大 ， 或 者 状态 空间 为 连续 空间 ， 此 


时 信函 数 无 法 用 一 张 表格 来 表示 。 这 时 ， 我 们 需要 利用 函数 盟 近 的 方法 
KIERO WKAR. SERRARA H RACET NARR, P 
DAAI H R RARA ERT AT E SS I GES o 


FF FUR RIG) 
4 





马尔 科 夫 决策 过 程 MOP (S,A,P,R,y) 


(S,A,P,R,y) (S,A,P? R? y? ) 
基于 模型 的 动态 规划 方法 无 模型 的 强化 学 习 方 法 

















图 6.1 值 国 数 逼 近 在 强化 学 习 算 法 中 的 应 用 
在 表格 型 强化 学 习 中 ， 值 图 数 对 应 着 一 张 表 。 在 值 函 数 带 近 方 法 
中 ， 值 函数 对 应 着 一 个 逼近 函数 0(s) 。 从 数学 角度 来 看 ， 函 数 通 近 方法 
可 以 分 为 参数 通 近 和 非 参 数 盟 近 ， 因 此 强化 学 习 值 函数 佑 计 可 以 分 为 参 
数 化 遇 近 和 非 参 数 化 示 近 。 其 中 参数 化 明 近 又 分 为 线性 参数 化 逼近 和 砷 
AVEWE BOB -o 
本 蔬 我 们 主要 介绍 参数 化 远近 。 所 谓 参 数 化 远近 ， 是 指 值 函 数 可 以 
由 一 组 参数 6 来 近似 。 我 们 将 逼近 的 值 函数 写 为 妨 (s,0O) 。 
ite UA (1B ER 2 PA TR EIN COG EIN a Ef RIA, JEZ PE 
近 时 选 定 了 神经 网 络 的 结构 ) , ASAE eS HY ee E TS ALA 
if. (AAA TST TAA a. BAE, Bel AN AD ik 
验 数 据 来 更 新 参数 值 。 那 么 ， 如 何 利 用 数据 更 新 参数 值 呢 ， 也 束 是 说 如 
何 从 数据 中 学 到 参数 值 呢 ? 
我 们 回顾 一 下 表格 型 强化 学 习 值 函数 更 新 的 公式 ， 以 便 从 中 得 到 局 
K 
REF RS NIE, TARA ATAN 
Q(s,a) — Q(s,a) +0(G,—Q(s,a)) (6.1) 
TDI HA ALE HATA 
Q(s,a) = Q(s,a) +alr+7Q(s’,a’) —Q(s,a)] (62) 


TDA) 方法 值 函数 更 新 公式 为 
Q(s,a) —Q(s,a) talG;—Q(s,a) | (6.3) 


M (6.1) ~ (6.3) AERA EEA AE h, E A E 
程 是 向 着 目标 值 函 数 靠近 。 如 图 6.2 所 示 为 TD 方法 更 新 值 疯 数 的 过 程 。 


0(s,a) r +yQ(s ',a') 





O 
图 6.2 TDA YAE RR aN ET 
WARS AE PRAY rae, A WG Ce Ee BE RY TAI EIN 
Aa TIE, Abe WA —-S Ae A, AA HEMERY TIE 
FEG ， 在 时 间 差 分 方法 中 是 7 十 YQ(s”a’)， 在 TD(A) PRG . 
将 表格 型 强化 学 习 什 函数 的 更 新 过 程 推广 到 值 图 数 逼 近 过 程 ， 有 如 
下 形式 。 
函数 逼近 Vv(s,9) 的 过 程 是 一 个 监督 学 习 的 过 程 ， 其 数据 和 标签 对 为 
(SU) , HU, 等 价 于 蒙特 卡 罗 方 法 中 的 ， 时 间 差 分 方法 中 的 
r+ 7Q(s’,a’), WRTD(A) 中 的 Ce . 
训练 的 目标 函数 为 
arg min (q(s,a) — q(s,a,0))* (6.4 ) 
下 面 我 们 比较 总 结 一 下 表格 型 强化 学 习 和 函数 通 近 方法 的 强化 学 习 


值 函数 更 新 时 的 有 异同 点 。 
(1) 表格 型 强化 学 习 在 更 新 值 函数 时 ， 只 有 当前 状态 2， 处 的 值 函 


数 改 变 ， 其 他 地 方 的 信函 数 不 改 变 。 

(2) EROE TTI MERI, ETB ae ， 而 估计 的 
ERICO) ， 所 以 当 参数 9， 发 生 改变 ， 任 意 状态 处 的 值 函数 都 会 
发 生 改 变 。 

值 冰 数 更 狐 可 分 为 增 量 式 学 习 方法 和 批 学 习 方 法 。 我 们 先 介 绍 增 量 
式 学 习 方 法 ， 其 中 随机 梯度 下 降 法 是 最 当 用 的 增 量 式 学 习 方 法 。 

1. 增 量 式 学 习 方 法 : 随机 梯度 下 降 法 

由 (6.4) 式 我 们 得 到 参数 的 随机 柳 大 更 新 为 

Qi41=0,+ alU,—v(S,0) | Ved(S,0) (6.5) 


FET ARR RY IEW A BORIT, HAARE F o 
给 定 要 评估 的 策略 ， 产 生 一 次 试验 : 


Sı S2 Sa Sr_1 $T 
O-e—-O—e—O----O-e-+_| 
全 函数 的 更 新 过 程 实 际 是 一 个 监督 学 习 的 过 程 ， 其 中 监管 数 据 集 从 
BERD EA) ik Bor F IE F, 其 数据 集 为 《si， G1, <S2, Gə), E , 《S57 Gr? o 
信函 数 的 更 新 如 下 。 
Ad = a(G, — 0(S;,0)) Ve0(S:, 0) (6.6) 
其 中 a 值 比较 小 。 在 随机 标 度 下 降 法 中 ， 似 乎 并 不 消 楚 为 什么 每 一 
步 床 用 很 小 的 更 新 。 难 道 我 们 不 能 在 柳 度 的 方向 上 移动 很 大 的 距离 长 全 
TOA PR RAS? 在 很 多 情况 下 确实 可 以 这 样 做 ， 但 十 通常 这 并 不 是 我 
们 外 要 的 。 请 记 住 ， 我 们 的 目的 并 不 是 在 所 有 的 状态 找到 精确 的 信函 
数 ， 而 是 一 个 能 平衡 所 有 不 同 状 态 误 差 的 值 亢 数 珊 近 。 如 有 果 我 们 在 一 步 
中 完全 纠正 了 侦 兰 ， 那 么 我 们 惑 无 法 找到 这 样 的 一 个 平衡 了 。 因 此 较 小 
HO! 值 可 以 维持 这 种 平衡 。 
如 图 6.3 所 示 为 基于 梯度 的 家 特 卡 多 值 国 数 笛 近 更 新 过 程 。 冢 特 卡 
多 方法 的 目标 值 函 数 使 用 一 次 试验 的 整个 回报 返回 信 。 


EP REM RISES es MHA RZ 
输入 : 要 评估 的 策略 m, -ARAA oS XR" +R 
恰当 地 初始 化 的 值 函数 权重 (例如 9 二 0 ) 


Repeat: 


利用 策略 ”产生 一 幕 数据 
For t=0,1, .… .7 一 ] 
bb+afG 一 5(S 0)]V5(S O) 
图 6.3 FET REY eRe BS 27 (PR A 
我 们 再 看 时 间 委 分 方法 。 根 据 方程 (6.5), TD (0) 方法 中 目标 值 
函数 为 Ui 三 ri 十 Y0(9441,0) ， 即 目标 值 函数 用 到 了 bootstrapping 的 
77 
我 们 注意 到 此 时 要 更 新 的 参数 0 不 仪 出 现在 要 估计 的 值 函 数 
v(91,0) Hh, HEA ERA, 中 。 若 只 考虑 参数 0 对 估计 值 函数 
v(S,,t) 的 影响 而 忽略 对 目标 值 函 数 Ut 的 影响 ， 这 种 方法 就 不 是 完全 的 
梯度 法 (只 有 部 分 柳 度 ) ， 因 此 也 称 为 基于 半 梯 上 度 的 TD (0) 值 函 数 评 
估算 法 ， 如 图 6.4 所 示 。 
01 = 0 +a| R+S, 0) 一 全 90 VECS: 4) (6.7) 


基于 半 梯 度 的 TD (0) 值 函 数 评估 算法 
输入 : 要 评估 的 策略 元 ， 一 个 可 微 通 近 上 函数 SR" > R 
恰当 地 初始 化 的 值 函 数 权 重 忆 aa 9 二 0 ) 
Repeat : 
初始 化 状态 S， 
Repeat (对 于 一 幕 中 的 每 一 步 ) 
选择 动作 A~a( |S) 
采用 动作 A 并 观测 回报 及 ,> 


0,.,=0,+a[R + yo(S'.0) — 06(5,,0,)] Vo(S,,0,) 
SeS 


直到 S ”是 终止 状态 


图 6.4 基于 半 梯 度 的 TD (0) 值 函 数 评估 算法 
如 图 6.5 所 示 为 基于 半 梯 度 的 Sara 算法 。 与 表格 型 强化 学 习 相 
比 ， 值 函数 青 近 方法 中 把 对 值 困 数 的 更 新 换 成 了 对 参数 的 更 新 ， 参 数 的 


学 习 过 程 为 监督 学 习 。 


给 入 ;一 个 要 训 近 的 可 微 动作 值 函数 ; 9:S XAX R" > 任意 地 初始 化 的 值 函 数 权重 昌 ( 例 如 9 = 0) 
Repeat (foreach episode) : 
初始 化 状态 行为 对 S，A 
Repeat 【对 于 每 一 幕 数据 中 的 每 一 步 ) : 
采用 动作 A， 得 到 回报 R， 和 下 一 个 状态 S 
WRS 是 终止 状态 : O+- 0 +a|R—G(S,A,0)|Vq(S,A,0) 
进入 下 一 莫 
利用 软 策略 选择 一 个 动作 A ， 以 便 估计 动作 值 函数 中 US ,4 OO) 
A+ O+a|R+yq(S'A',0) —G(S,A,0)]VG(S,A,9) 
sey 
At-A’ 
图 6.5 基于 半 梯 度 的 Sarsa 算 法 
到 目前 为 止 ， 我 们 还 没有 讨论 要 通 近 的 值 函 数 的 形式 。 信 函数 可 以 


KAREE EF SEZ PEI. AEG HREN Be AH A ak HA ZK 
下 面 我 们 仅 讨 论 线 性 通 近 : U(s,0) =0* (s) 


相 比 于 非 线 性 遏 近 ， 线 性 逼近 的 好 处 是 只 有 一 个 最 优 什 ， 因 此 可 以 
收敛 到 全 局 最 优 。 其 中 9(s) 为 状态 s 处 的 特征 函数 ， 或 者 称 为 基 函 数 。 


利用 的 基 函 数 的 英 型 如 下 。 
ZB, M SFE PKA, god, $1, 82,8182,81,$3,°°") o 
EMEKA: (s) = cos (irs), se [0,1] 
径 向 基 函 数 ， G(s) = exp(- eet) 
Kik VE TUT TEL PRI ITN A BL ER BEAM ERE TEAR, a N4 
到 参数 的 更 新 公式 ， 不 同 强化 学 习 方 法 更 新 公式 如 下 。 
综 特 卡 罗 方 法 值 商 数 更 新 公式 : 
Ad = aU, (s) — O(S, 0) |VoCS;,4,) 
=a[G,— p] 
TD (0) REEE KAEI A: 
Ad=alR+ 70" p(s’) 一 0 p(s) lo(s) 
=ad¢(s) 
正 向 视角 的 TD (和) 更 新 公式 : 
Ad =a (G 一 0 9)9 
后 向 视角 的 TD A) 更 新 公式 : 
ô: = Ririt yO $(s’) 一 0 G(s) 
E, = YN i+ os) 
Ad = Qô, E, 


前 面 讨论 的 是 增 量 式 方法 更 新。 增 量 式 方法 参数 更 新 过 程 随 机 性 比 
较 大 ， 尽 官 计算 简单 ， 但 样本 数据 的 利用 效率 并 个 高 。 


我 们 再 来 看 下 批 的 方法 ， 尽 管 它 计 算 复 杂 ， 但 计算 效率 高 。 
CR 
D= { Cs, UT > ， 《82, U3 be , <Sr,ur)} ， 找 到 最 好 的 拟 合 函数 


0(s,9) ， 使 得 LS(0) = ere (5,,0)) 最 小 
可 利用 线性 最 小 二 乘 通 近 : 
Ap =a [o7 — 09l) IG) =0 
HR /)) FE Be PR 方法 参数 为 
9 = 这 6(s,)6(s,) j i > $(s)G, 
RN RENIEN 
9 = > p(s) ($s,) 二 Go D oR 


BV) ETD (A) 方法 为 
0 = È E, ($ (s:) -Go > ias 


6.2 DQN 及 其 变种 
6.2.1 DQN 方 法 


强化 学 习 逐 渐 引 起 公众 的 注意 要 归功 于 谷歌 的 DeepMind 公 司 。 
DeepMind 公 司 最 初 是 由 Demis Hassabis, Shane Legg 和 Mustafa Suleyman 


于 2010 年 创立 的 。 创 始 人 Hassabis 有 三 重 映 份 : 游戏 开发 者 ， 神 经 科学 
家 以 及 人 工 镶 能 创业 者 。Hassabis WE RTT BCE NY MEAS EENE 
DeepMind 在 Nature 上 发 表 的 第 一 篇 论文 是 以 雅 达 利 Gatari) 游戏 为 背景 
的 。 同 时 ，Hassabis 又 古国 际 象 横 高手， 他 在 挑战 完 徐 单 的 雅 达 利 游戏 
后 再 挑战 深奥 的 围棋 游戏 也 就 不 难 理解 了 。 这 就 有 了 AlphaGo 和 李 世 石 
的 2016 之 战 ， 以 及 他 在 Nature 及 表 的 第 二 坑 论 文 。 一 战 成 名 之 后 ， 深 度 
强化 学 习 再 次 博得 世人 的 眼球 。 当 然 ，DeepMind 的 成 功 离 不 开 近 几 年 
取得 突破 进展 的 深度 学 习 技 术 。 本 节 主 要 讲解 DQN, Hwt DeepMind 
RRE Nature 上 的 第 一 坑 论 文 ， 名 字 是 Human-level Control through 
Deep Reinforcement Learning。 

平 心 而 论 ， 这 坊 论 文 只 有 两 个 创新 点 ， 即 经 验 回 放 和 设立 单独 的 目 
标 网 络 ， 后 面 我 们 会 证 细 介 绍 。 算 法 的 大 体 框 染 是 传统 强化 学 习 中 的 
Qlearning。 我 们 已 经 在 第 5 章 时 间 到 分 方法 中 阐述 了 。 为 了 前 后 理解 方 
便 ， 我 们 再 重新 柄 理 下 。 

Qlearmming 方 法 是 异 策 略 时 间 天 分 方法 。 其 伪 代 码 如 图 6.6 所 示 。 


1. 初始 化 Q(s,a), VWs E S, a E A(S), BEBE, y 


2. Repeat: 

3， 给 定 起 始 状态 s， 并 根据 CARRERS s 选择 动作 a 

5, (a) 根据 E 贪 禁 策 略 在 状态 5, 选择 动作 4, ， 得 到 回报 7 和 下 一 个 状态 51.1 

6. (b) Yls,.4,)—O(s,,4 j+ajr, +y max O(s,,,,a)-O(S,,a, JES 目标 策略 为 贪 禁 策略 
7 

8 

9 





(c) s=s , aza’ 
Until s 是 终止 状态 
Until 所 有 的 Q(s, a) Ws 
10， 输 出 最 终 策略 ; is) = argmax Wls, 0) 


16.6 Qlearning 方 法 的 伪 代 码 
掌握 Qlearning 方法 一 定 要 明日 两 个 概念 一 一 寞 案 略 和 时 间 和 大分， 
以 及 这 两 个 概念 在 Qlearning 和 宽 法 是 中 如 何 体现 的 。 下 面 我 们 一 一 介绍 。 
措 货 略 ， 是 指 行动 案 略 (产生 数据 的 策略 〉》 和 要 评估 的 全 略 不 古 一 
个 策略 。 在 图 6.6 的 Qlearning 伪 代 码 中 ， 行 动 策略 (产生 数据 的 策略 ) 





ye 547 Me-greedy Aig, T pe ih MCE NY SENS AE BOTT WY DA ERS 
(每 个 状态 取 值 函数 最 大 的 那个 动作 〉。 
时 间 差 分 方法 ， 是 指 利用 时 间 差 分 目标 来 更 新 当前 行为 值 函数 。 在 
图 6.6 的 Qlearmning 伪 代码 中 ， 时 间 差 分 目标 为 十 YmaxC(\s+ba) 。 
Qlearning 算 法 是 1989 年 由 Watkins 提 出 来 的 ，2015 年 Nature 论 文 提 到 
的 DQN 束 是 在 Qlearning 的 基础 上 修改 得 到 的 。 
DQN 对 Qlearning 的 修改 主要 体现 在 以 下 三 个 方面 。 
(1) DQNAI FAVRE EFRI A Dy] 28 1 UT EB PR BY 
(2) DQNAIFA Y Aw lV a eS OS) AN Se E; 
(3) DQNAHAL BCE S H PP) 25 eB Ah EHT E Ae OP IE PTD 
Fe 

下 面 ， 我 们 对 这 三 个 方面 做 简要 介绍 。 

(1) DQN 利 用 卷 积 神经 网 络 通 近 行 为 值 函 数 。 

如 图 6.7 所 示 为 DQN 的 行为 值 函 数 逼 近 网 络 。 我 们 在 6.1 和 已 经 介绍 
了 信函 数 的 青 近 。 只 不 过 6.1 中 讲 的 是 线性 示 近 ， 即 信函 数 由 一 组 基 
图 数 和 一 组 与 之 对 应 的 参数 相 乘 得 到 ， 什 函数 是 参数 的 线性 函数 。 而 
DQN 的 行为 值 轴 数 利用 神经 网 络 逼 近 ， 属 于 非 线 性 明 近 。 虽 然 通 近 方 法 
不 同 ， 但 都 属于 参数 通 近 。 请 记 住 ， 此 处 的 值 函 数 对 应 着 一 组 参数 ， 在 
神经 网 络 里 参数 是 每 层 网 络 的 权重 ， 我 们 用 & 表示 。 用 公式 表示 的 话 值 
函数 为 @(s,a;0) 。 请 留意 ， 此 时 更 新 值 函数 时 其 实 是 更 新 参数 0 ， 当 
网 络 结构 确定 时 ，09 束 代 表 值 函数 。DQN 所 用 的 网 络 结构 是 三 个 吞 积 
层 加 两 个 全 连接 层 ， 整 体 框架 如 图 6.7 所 示 。 
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图 6.7 DQNÍT AE PR A NE A 

A) H #41 228 DX) 25 E T E R ATOE E EME A MRTE o aA 
EWI ENEZ 90 年 代 。 当 时 学 者 们 发 现 利用 神经 网 络 ， 尤 其 是 深度 
神经 网 络 明 近 信 冰 数 不 太 靠 详 ， 因 为 钊 间 出 现 不 稳定 不 收 人 敏 的 情况 ， 所 
以 在 这 个 方 癌 上 一 直 没 有 突破 ， 直 到 DeepMind 的 出 现 。 

我 们 要 问 ，DeepMind 到 底 做 了 什么 ? 

别 筷 了 DeepMind 的 创始 人 Hassabis 是 神经 科学 的 博士 。 早 在 2005 
年 ，Hassabis 束 开始 琢 廊 如 何 利 用 人 的 和 学习 过 程 提 升 游 戏 的 智能 水 平 ， 
为 此 他 去 伦 臻 大 学 开始 攻读 认 知 神经 科学 方 回 的 博士 ， 并 很 快 有 了 突出 
成 惑 ， 在 Science、Nature 等 顶级 期 刊 狂 发 论文 。 他 当时 的 研究 方 同 是 海 
马 体 那么 ， 什 么 是 海马 体 ? 为 什么 要 选 海马 体 ? 

海马 体 是 人 类 大 脑 中 负责 记忆 和 学 习 的 主要 部 分 ， 从 Hassabis 学 习 
认 知 神经 科学 的 目的 来 看 ， 他 选 海马 体 作为 研究 方 同 就 是 水 到 渠 成 的 事 
J x 

现在 我 们 就 可 以 回答 ，DeepMind 到 底 做 了 什么 ? 





他 们 将 认识 神经 科学 的 成 果 应 用 到 了 深度 神经 网 络 的 训练 之 中 ! 

(2) DQN 利 用 经 验 回 放 训 练 强 化 学 习 过 程 。 

RIER, TS ASE RA IZ KE. AF 
个 局 发 机 制 ，DeepMind 团 队 的 研究 人 员 构 造 了 一 种 神经 网 络 的 训练 方 
法 : 经 验 回 放 。 

通过 经 验 回 放 为 什么 可 以 令 神 经 网 络 的 训练 收敛 且 稳 定 ? 

原因 是 : 训练 神经 网 络 时 ， 存 在 的 假设 是 训练 数据 是 独立 同 分 布 
的 ， 但 是 通过 强化 学 习 末 集 的 数据 之 则 存在 着 关联 性 ， 利 用 这 些 数据 进 
行 顺序 训练 ， 神 经 网 络 当 然 不 稳定 。 经 验 回 放 可 以 打破 数据 间 的 关联 ， 
如 图 6.8 所 示 。 


81, Q1,72, 5827 


《83, Q3,74,84> 


《84, A4, l5, S5) 
(35,055,176, S6) 





图 6.8 经 验 回 放 

在 强化 学 习 过 程 中 ， 智 能 体 将 数据 存储 到 一 个 数据 库 中 ， 再 利用 均 
们 随机 采样 的 方法 从 数据 库 中 抽取 数据 ， 然 后 利用 抽取 的 数据 训练 神经 
网 络 。 

这 种 经 验 回 放 的 技巧 可 以 打破 数据 之 间 的 关联 性 ， 访 技巧 在 2013 年 
的 NIPS 已 经 发 布 了 ，2015 年 的 Nature 论文 则 进一步 提出 了 目标 网 络 的 
概 您 ， 以 进一步 降低 数据 间 的 关联 性 。 

(3) DQN 设 置 了 日 标 网 络 来 单独 处 理 时 间 差 分 算法 中 的 TD 偏差 。 

与 表格 型 的 Qlearning 算 法 (图 6.6) 不 同 的 是 ， 利 用 神经 网 络 对 值 
函数 进行 晕 近 时 ， 值 函数 的 更 狐 步 更 新 的 是 参数 (如 图 6.9 Ara) ， 
DQN 利用 了 若 积 神经 网 络 。 其 更 新 方法 是 梯度 下 降 法 。 因 此 图 6.6 中 第 6 


ITERA EITEM ERN Ss A RE, KA RB RRA 
0,41=8, +a|r + ymaxQ(s’,a’;0) —Q(s,a;8) |VQ(s,a;6) 


其 中 , ?十 YmaxQ@(s”a”0) 为 TD 目标 ， 在 计算 max@Q(4s 430) 
值 时 用 到 的 网 络 参数 为 。 


图 
C P —> |1Q(s,a;0 
MM 
图 6.9 íT AE K BO UT PX t 
我 们 称 计 算 TD 目 标 时 所 用 的 网 络 为 TD 网 络 。 在 DQN 算 法 出 现 之 
前 ， 利 用 神经 网 络 通 近 值 图 数 时 ， 计 算 TD 目标 的 动作 信函 数 所 用 的 网 
2B, SMR ABI A ZS BU le), REA 
易 寻 致 数据 间 存 在 关联 性 ， 从 而 使 训练 不 稳定 。 为 了 解雇 此 问题 ， 
DeepMind 提 出 计算 TD 目标 的 网 络 表 示 为 ;计算 值 图 数 通 近 的 网 络 表 示 
为 ; 用 于 动作 值 函 数 再 近 的 网 络 每 一 步 都 更 新 ， 而 用 于 计算 TD 目标 的 
网 络 则 是 每 个 固定 的 步 数 更 新 一 次 。 
PAY EE (EL eB ac HY BE ar BB A 


0 一 0 十 alr 十 YmaxQ@(s5a50-) — Q(8,0;6) |VQ(s,0;0) 


好 后 我 们 给 出 DQN 的 伪 代 人 码 ， 如 图 6.10a 所 示 。 


[1] Initialize replay memory D to capacity N 

[2] Initialize action-value function O with random weights 0 

[3] Initialize target action-value function Q with weights 0 = 0 

[4] For episode = 1, M do 

[5] Initialize sequence sı = {x,} and preprocessed sequence ¢, =¢(s;) 


[6] For t = 1,T do 


[7] With probability £ select a random action a, 

[8] otherwise select a, =argmax, O(¢(s;),a; 0) 

[9] Execute action a, in emulator and observe reward r, and image x; + ; 
[10] Set 5; 4.1 = S;.@;.X%;4, and preprocess ¢, ,1 =@(S;41) 
[11] Store transition (¢,.@:.7:.0,,,) in D 
[12] Sample random minibatch of transitions (barh, | | from D 

| r; if episode terminates at step j+ 1 
Setyj = l i hi i 

13) j r+y maxy ol +194 30 ) otherwise 
[14] Perform a gradient descent step on | j- O(a; 0) F with respect to the 
[15] network parameters 0 
[16] Every C steps reset Q= Q 


[17] End For 
[18] End For 


图 6.10a DQN 的 伪 代 码 

下 面 我 们 对 DQN 的 伪 代 人 码 逐 行 说 明 。 

第 [1] 行 ， 初 始 化 回放 记忆 D， 可 容纳 的 数据 条 数 为 N; 

第 [2] 行 ， 利 用 随机 权 值 6 初始 化 动作 -行为 值 函 数 Q; 

第 [3] 行 ， 令 0 三 4 初始 化 ， 计 算 TD 目 标的 动作 行为 值 Q; 

第 [和] 行 ， 循 环 每 次 事件 ; 

第 [5] 行 ， 初 始 化 事件 的 第 一 个 状态 s1 ”， 通 过 预 处 理 得 到 状态 对 应 
的 特征 输入 ; 

第 [6] 行 ， 循 环 每 个 事件 的 每 一 步 ; 

第 [7] 行 ， 利 用 概率 E 选 一 个 随机 动作 0 ; 

第 [8] 行 ， 奉 小 概率 事件 没 及 生 ， 则 用 贫 区 策略 选择 当前 值 函 数 最 大 
的 那个 动作 w = argmaxQ(¢ (s,),a;0) ; 


注意 : 这 里 选 最 大 动作 时 用 到 的 值 函 数 网 络 与 逼近 信函 数 所 用 的 网 


注意 : BST) FU (BMT EITHR, Ble-greedy TRH . 

第 [9] 行 ， 在 仿真 需 中 执行 动作 w ， 观 测 回报 7" 以 及 图 像 XYi+1 ; 

第 [10] 行 ， WEF St+1 = St, Qe, Ltt ’ 预 处 理 @i41 = & (5:41) : 

第 [11] 行 ， 将 转换 (0，， At, Tt; Pir) 储存 在 回放 记忆 DD 中 ; 

第 [12] 行 ， 从 回放 记忆 DD 中 均匀 随机 采样 一 个 转换 样本 数据 ， 用 
(DaT Pj) HH: 

BUIT. FIBER E-PSHEWAIERA, AETHER, FB 
则 利用 TD 目标 网 络 9- 计算 TD 目标 7 十 Ymax@(4s ,430 )， 

第 [14] 行 ， 执 行 一 次 梯度 下 降 算 法 
Ad =a\r+ymaxQ(s’,a’;0-) —Q(s,a;0)| VQ(s,a;8) ; 


第 [15] 行 ， 更 新 动作 值 函数 逼近 的 网 络 参 数 0 王 0 + AO ; 

第 [16] 行 ， 每 隔 C 步 更 新 一 次 TD 目标 网 络 权 值 ， 即 令 0 三 0 , 

第 [17] 行 ， 结 束 每 次 事件 内 循环 ; 

第 [18] 行 ， 结 束 事件 间 循 环 。 

我 们 可 以 看 到 ， 在 第 [12] 行 利用 了 经 验 回放 ; 在 第 [13] 行 利用 了 独 
立 的 目标 网 络 ， 第 [15] 行 更 新 动作 值 函 数 再 近 网 络 参数 ， 第 [17] 行 更 新 
目标 网 络 参数 。 


6.2.2 Double DQN 


上 一 市 我 们 讲 了 第 一 个 深度 强化 学 习 方 法 DQRN，DQN 的 框架 仍然 
是 Qlearning。DQN 只 是 利用 了 敬 积 神经 网 络 表 示 动 作 值 冰 数 ， 并 利用 
了 经 验 回 放 和 单独 设立 目标 网 络 这 两 个 技巧 。DQN 无 法 克服 Qlearning 
本 里 所 固有 的 缺点 一 一 过 估计 。 

那么 什么 是 过 估计 ?Qlearning 为 何 有 具有 过 估计 的 缺点 呢 ? 

过 佑 计 是 指 估计 的 值 国 数 比 真实 值 函 数 要 大 。 一 般 来 说 ，Qlearning 


之 所 以 存在 过 估计 的 问题 ， 根 源 在 于 Qlearning 中 的 最 大 化 操作 。 
Qlearming 评 佑 值 国 数 的 数学 公 去 如 下 有 两 类 。 
e 对 于 表格 型 ， 值 疯 数 评估 有 的 更 新 公式 为 


Q(si,0) — Q(s,,a:) ta r, + ymaxQ(s;,41,@) ~Q(84,) 
OX PEF eh BO EA IE AY Be At A EUAN 
0... =0,+ a( Res + ymaxQ (S11 0;0)) = Q(8.,4,58) VQ (Sn A500) 


WV EDAD SP ETA, AM Ee A EE FPR AY 
法 ， 值 函数 的 更 新 公式 中 都 有 max 操 作 。 

max 操 作 使 得 估计 的 值 函 数 比 值 函 数 的 真实 值 大 。 如 果 值 函数 每 一 
点 的 值 都 补 过 估计 了 相同 的 幅度 ， 即 过 佑 计量 是 均匀 的 ， 那 么 由 于 最 优 
菏 略 是 仿 焚 策略 ， 即 找到 最 大 的 从 函数 所 对 应 的 动作 ， 这 时 候 最 优生 上 略 
是 你 持 不 变 的 。 也 就 是 说 ， 在 这 种 情况 下 ， 即 使 值 函 数 补 过 估计 了 了， 也 

` 影 啊 最 优 的 策略 。 强 化 学 习 的 目标 古 找到 最 优 的 傈 上 略 ， 而 不 是 要 得 到 

(EPRI, PDA a ee PRI Th, ZR NM BAT RR 
问题 。 然 而 ， 和 在 实际 情况 中 ， 过 佑 计量 并 非 是 均匀 的 ， 因 此 信函 数 的 过 
IRRI RARER R, AFARA REEERE, MR ER 
Vee 

JI T PRE ea BOS ATT AY la) el, Hasselt 提出 了 Double Qlearning 的 
方法 。 所 请 Double Qlearning 定 将 动作 的 选择 和 动作 的 评 佑 分别 用 不 同 
的 信函 数 来 实现 。 

那么 ， 什 么 是 动作 的 选择 ? 什么 是 动作 的 评估 ? 我 们 做 些 徐 要 的 说 
HA 

e 动 作 选 择 

在 Qlearning 的 人 函数 更 新 中 ，TD 目 标 为 

Yr = Ri + ymaxQ (S: +1,0;0:) 


在 求 TD 目 标 Yr 的 时 候 ， 我 们 首先 需要 选择 一 个 动作 即 ok ， 该 动 


作 a 应 该 满足 在 状态 S411 人 处 Q(Si411,a) 最 大 ， 这 就 是 动作 选择 。 
e@ 动 作 评 估 
动作 评估 是 指 选 出 a 后， 利用 a 处 的 动作 值 函数 构造 TD 目标 。 
一 般 Qlearning 利 用 同一 个 参数 上 来 选择 和 评估 动作 。 
Double Qlearning 分 别 用 不 同 的 行为 值 范 数 选择 和 评估 动作 。Double 
QlearningHJTD E trast 
Vp = Revit YQ (S141argmaxQ (Sune: 91);0; 


从 该 公 式 我 们 看 到 ， 动 作 的 选择 所 用 的 动作 值 函 数 为 
argmaxQ@ (H+1,4;0:) _ 

这 时 动作 值 函 数 网 络 的 参数 为 0，。 当 选 出 最 大 的 动作 a 后， 动作 

评估 的 公式 为 
Yo = Ri+ı + YQ Oma 30;) 

动作 评估 所 用 的 动作 值 函数 网 络 参 数 为 2. 。 

将 Double Qlearning 的 思想 应 用 到 DQN 中 ， 则 得 到 Double DQN 即 
DDQN， 其 TD 目标 为 


yo Sh 1 +70(8 argmaxQ (S110;07 ) ) 


6.2.3 优先 回放 (Prioritized Replay) 


DQN 的 成 功 归 因 于 经 验 回 放 和 独立 的 目标 网 络 。Double DQN 改进 
了 Qleaming 中 的 max 操 作 ， 经 验 回 放 仍 然 玉 用 均匀 分 jel 经 验 回 放 时 利 
用 均匀 分 布 采样 并 不 是 高 效 利用 数据 的 方法 。 因 为 ， 和 在 人 
历 过 的 数据 ， 对 于 智能 体 的 学 习 并 非 共 有 同等 重要 的 音义。 智能 体 在 某 
些 状态 的 学 习 效 紊 比 其 他 状态 的 学 习 效 率 高 。 优 先 回 放 的 基本 思想 束 是 


TRIJE IT FIE Ta IAS DA EECA EAN HE 

如 何 选择 权重 ? DEE AS on HE ee 29 BE AS) ES ay, DL FER 
Ko FAIRER —MEFEETD WO. TRARA, tA RASA 
的 值 函 数 与 TD 目标 的 甜 距 越 大 ， 镶 能 体 的 更 新 量 越 大 ， 因 此 访 处 的 学 
习 效 率 越 高 。 

我 们 设 样本 ? 处 的 TD 偏差 为 9; ， 则 该 样本 处 的 采样 概率 为 


PO= 3 


其 中 pi; 由 TD tized; Rie. RAAMI, FMT Ae 
1 
p= |6i| 十 e ; BAIRE S pank ， 其 中 rank(i) 根据 |6i| 的 


排序 得 到 。 

当 我 们 采用 优 移 回 放 的 概率 分 布 采 样 时 ， 动 作 信函 数 的 估计 值 是 一 
个 有 但 估计 。 因 为 采样 分 布 与 动作 信函 数 的 分 布 是 两 个 完全 不 同 的 分 
布 ， 为 了 禾 正 这 个 俩 过 ， 我 们 需要 乘 以 一 个 重要 性 采样 系数 


“(ira 


带 有 优先 回放 的 Double DQN 的 伪 代 码 如 图 6.10b 所 示 。 





Algorithm 1 Double DQN with proportional prioritization 
1: Input: minibatch k, step-size 7, replay period K and size N , exponents a and 8, budget T. 
2: Initialize replay memory H = Ø, A = 0, pı = 1 
3: Observe Sp and choose Ap ~ Tal Sp) 
4: fort = 1toT do 
5: Observe St, Ri, Yi 
6: Store transition (S;_;, At—1, Rt, Yt, S+) in H with maximal priority pp = max;—; Pi 
7: ift=0 mod K then 
8 for j = 1 to k do 


9: Sample transition j ~ P(j) = p$ / > p? 

10: Compute importance-sampling weight w; = (N - P(j))~” / max; wi 

11: Compute TD-error 6; = Rj + 7; Qtamer (Sj, arg maxa Q(S;,a)) — Q(S;-1, Aj-1) 
12: Update transition priority pj <— |07 

13: Accumulate weight-change A < A + wj - 6; - VgQ(Sj-1, Aj-1) 

14: end for 

15: Update weights 0 + 0 + ņ - A, reset A = 0 

16: From time to time copy weights into target network farget <— 0 

17: endif 


18: Choose action A; ~ Ta( S4) 
19: end for 


16.10 b 带 有 经 验 回 放 的 Double DQN 伪 代码 

下 面 我 们 逐 行 说 明 该 伪 代 码 。 

第 [1] 行 ， 输 入 : 确定 minibatch 的 大 小 上 , HI) ， 回 放 周 期 长 , 
存储 数据 的 总 大 小 N， 常 数 Q,6 , AET : 

第 [2] 行 ， 初 始 化 回放 记忆 库 信 三 儿 ,人 二 0 ,1 二 0 | 

第 [3] 行 ， 观 测 初 斌 状态， 选择 动 作 Ao~76o (So) ; 

第 [4] 行 ， 时 间 从 t=1 到 总 时 间 T， 进 入 循环 ; 

第 [5] 行 ， 利 用 动作 A 作用 于 环境 ， 环 境 返 回 观测 91, Ri Ve ; 

第 [6] 行 ， 将 数据 (9S1-1, Ar Re VS) 存储 到 记忆 库 太 中 ， 且 令 
其 优先 级 为 Pi Maxi<rDi ， 采 用 该 优先 级 初始 化 的 目的 是 保证 每 个 样 
本 至 少 航 利用 一 次 ; 

第 [7] 行 ， 每 隔 K 步 回放 一 次 ; 

第 [8] 行 : 依次 采集 k 个 样本 

第 [9] 行 ， 根 据 概 率 分 布 j~P(j) 三 p? 了 /ip? 采样 一 个 样本 点 ; 


第 [10] 行 ， 计 算 样 本 点 的 重要 性 权重 ww 一 (V- P(j)) f /max;w, 


SLIT. WARE AS ETD mZ 

6; = Rj + 7; Qrorget (Sj, arg max,Q(S;,a)) —Q(S;-1,A;-1); 
第 [12] 行 ， 更 新 该 样本 的 优先 级 Pp; 和 lő; ; 

第 [13] 行 ， 累 积 权重 的 改变 量 信 人 千 人 十 wj: s Vo@(S;_1,4j;-_1) 


第 [14] 行 ， 结 束 本 样本 的 处 理 ， 采 样 下 一 个 样本 ; 

第 [15] 行 ， 采 样 并 处 理 完 k 个 样本 后 更 新 权重 值 9 千 0 十 7: 公 , E 
新 设置 入 =O, 

第 [16] 行 ， 偶 尔 地 复制 新 权重 到 目标 网 络 中 ， 即 Wanee 全; 

第 [17] 行 ， 结 束 一 次 更 新 ; 

第 [18] 行 ， 根 据 新 的 策略 ~7o (5w) 选择 下 一 个 动作 ; 

第 [19] 行 ， 利 用 新 的 动作 作用 于 环境 ， 得 到 新 数据 ， 进 入 新 循环 。 

需要 注意 的 是 第 [9] 行 的 采样 方法 需要 对 P 的 所 有 样本 排序 ， 这 非常 
消耗 计算 能 力 ， 为 了 更 好 地 采样 ， 可 以 利用 更 高 级 的 算法 ， 如 SumTree 
的 方法 ， 上 共 体 可 参看 相关 论文 。 


6.2.4 Dueling DQN 


不 管 是 最 初 的 DQN， 还 是 由 DQN 演 化 出 的 Double DQN、 经 验 优先 
回放 DQN 在 值 函 数 逼 近 时 所 用 的 神经 网 络 都 是 眷 积 神经 网 络 。Dueling 
DQN 则 从 网 络 结构 上 改进 了 DQN。 动 作 值 函 数 可 以 分 解 为 状态 值 函数 
和 优势 函数 〈 本 书 第 8 章 有 形象 的 解释 ) ， 即 

Q"(s,a) =V" (s) + A*(s,a) 


AUT TAM S2SDQN TIA, ERAHNEN (s, a) y 


Dueling DQN 则 对 V” (s) FA" (s,a) 分 别 利用 神经 网 络 逼 近 ， 其 网 络 续 
构 如 图 6.10c 所 示 。 


4r(s,a) 


图 6.10c Dueling DQN 网 络 结构 
pki A UE Ty ve 


ANTE NIP eA S ATA PR BO IT A BO IE TT 
REALE, BAIN REAPER SRR BORE TIE. eA BOUT 近 方法 可 以 分 
Ada HI PR ZOE IT YA SE FEBS A PA BO TI. FT 
细 介 


V"(s) 





Q*(s,a) 





6.3.1 4 FJES ALY Ph BUH 
ZETAFB ALN BOI, IFAT AEB AY eR Bo, MET 
BA YS AN SR JR I HP SE TAL FE RAS RE AE TI 
我 们 举 个 例子 。 比 如 已 知 训练 样本 为 N 个 的 数据 集 T={ Oxy > y1 
) ， (Xo, yo) ，...， (XN ，yN ) }， 求 远近 这 些 样本 氮 的 图 数 。 
我 们 匈 看 看 基于 参数 的 方法 是 怎么 做 的 。 
正如 前 面 所 说 ， 基 于 参数 的 方法 是 先 选 一 组 基 函 数 内 (4Z) ， 然 后 设 


函数 的 形式 为 (x) = 2662) ， 利 用 训练 数据 集 和 优化 方法 得 到 


BBO Omn 。 这 种 基于 参数 的 方法 ， 不 管 训 练 集 数据 量 的 多 少 ， 基 函 
DUN IZ ZX. 参数 的 个 数 都 是 事先 给 定 的。 


Fe TIFB SUN RZE NAA, ESAR, BES 
PEAS Ah 2s BOA PR BORE Bot. WOE PRAY ABOU, Fe ZS ETH Be 
数 形 式 为 


fie) = > ay: K (2,2) + b 


从 上 式 中 我 们 看 到 ， 最 后 的 函数 逼近 形式 帮 z) 由 N 个 基 函 数组 成 ， 
这 里 的 N 为 样本 的 数目 ， 每 个 基 函 数 包 天 a,r) 对 应 着 训练 数据 集中 的 
一 个 样本 点 (zi,y;) ， 因 此 样本 数 越 多 ， 函 数 项 越 多 。 非 参数 的 函数 逼近 
是 基于 样本 数据 推测 未 知 数据 的 一 种 方法 。 常 用 的 非 参 数 的 函数 逼近 方 
法 包括 基于 核 函 数 的 方法 和 基于 高 斯 过 程 的 方法 。 下 面 我 们 一 一 介绍 。 

1. 基 于 核 函 数 的 方法 [1 

核 函 数 的 提出 与 支持 向 量 机 〈SVM) 有 密切 的 联系 。 所 以 ， 我 们 先 
了 了解 文 持 辣 量 机 求解 问题 的 推导 过 程 。 

如 图 6.11 所 示 为 二 分 类 问题 ， 其 目标 是 找到 一 条 线 分 开 不 同类 别 的 
数据 。 对 于 珊 维 数据 ， 分 类 问题 可 归结 为 寻找 超 平面 问题 ， 即 给 定 训 练 
数据 集 了 二 { (91,41), TP2,Y2), ,Tw YN)? ’ 找到 可 分 开 数 据 集 的 超 平 
面 : 


w -xt+b=0 (6.8 ) 





图 6.11 二 分 类 问题 


经 过 一 系列 转换 ， 访 分 类 问题 可 转化 为 如 下 最 大 间隔 的 优化 问题 : 
min = lwl? 
a (6.9 ) 
s.t. y,(w-2;+b)—-120, i=1,2,-°,N 


eT A al el, AIRE RTT IZ. TAHA RATE 
He MENT ZR PEAN SEU, BAT ES A 1 A, FLAS) A ET S 
方法 求解 。 之 所 以 采用 这 种 方法 也 是 为 了 引出 核 函数 。 

为 了 解决 (6.9) 式 ， 我 们 定义 拉 格 明日 函数 : 


N N 

1 | 

L(w,b,d) = 5 lwll? — $ Ay: (w: 2, +b) + Dd (6.10) 
t=1 t=1 


ARTE DAG BA H AATE, 6.9 式 的 对 侦 问 题 是 极 大 极 小 问题 : 
max min L(w,b,A) 

可 以 分 两 步 解 决 : 

第 一 步 ， 求 minL(w,b, A) 


将 拉 格 朗 日 函数 LZ(w,b, 入 ) 分 别 对 w,b 求 偏 导数 ， 并 等 于 0， 即 


N 
i 二 1 


N 
i 二 1 


整理 得 


N 
w= 》 Ayia, (6.11 ) 
i=1 
N 
> Ay =0 (6.12 ) 
i=1 


将 (6.11) F (6.12) RA (6.10) 式 ， 并 利用 (6.12) 式 可 以 
得 到 拉 格 朗 日 函数 为 


N N N 
1 
L(w,b, 和 ) = 5 2 2 AAYY (x, i T) + >》 和 
i=1 j=1 i=1 


BU 
1 N N N 
min L(w,b,) 一 一 J2 N AAYY (a) + NA 
| i=1 j=1 i=1 


第 二 步 ， 求 minL(w,b, 入 ) 对 入 的 极 大 ， 即 原 问题 的 对 偶 问题 。 


max — 5 MA Uy (E; Ls) +n 
pe (6.13 ) 


A 20, i=1,2,--,N 


{E (6.13) 式 的 目标 函数 前 面 加 负 号 ， 将 求 极 大 问题 转化 为 求 标准 
的 极 小 问题 : 


1 N N N 
mins 》_ N AAYY (x; ° t) — Sod 
} ) i=1 


¢=1 j=1 


N 
(6.14) 
st, > Ay: =H 
‘= 1 


\, 20, i=1,2,--,N 
HH (6.14) ARIJE WKS RS BAA ESA ， 然 后 根据 求 得 


N N 
w= N NYT, b =y; — N Ayila £2) (6.15) 
i=1 i=1 
(6.15) FRA (6.8) 式 可 以 得 到 最 终 的 方程 为 
N N 
> Ayiaia + y;— > Ayila x) =0 (6.16 ) 
i=1 i=1 


从 上 面 的 例子 我 们 看 到 ， 在 整个 求解 优化 问题 的 过 程 中 ， 目 标 函 数 
(6.14) 却 和 最 终 的 解 表 示 (6.16) 式 中 的 输入 总 是 以 成 对 输入 乘积 的 
形式 出 现 ， 即 总 是 以 Xi* T 的 形式 出 现 。 我 们 将 两 个 输入 Zi 和 2X; 的 乘 
积 定 义 为 核 函 数 天 (zzZ7) ， 那 么 利用 核 函 数 就 可 以 求 得 最 终 解 ， 即 最 终 


> NYiK (2,2) +y;— > NYK (zi7)) 一 0 (6.17 ) 
EZA P, PK PR Be fe PL SEAR TA. OY TRTE BY Op AY fia FE a 


ml, ARATE CRT RATE DA AB A 4% BR SE E AY PE Ja OI HE BES AR 
的 问题 ， 比 如 线性 不 可 分 问题 ， 如 图 6.12 所 示 。 





图 6.12 线性 不 可 分 问题 
FARITE AI PB BEN PN EE MC -o 
WA EMATE, VEH KEETE, WRALE SM X Bl] H 
的 映射 P) >H 的 映射 ， PESH , EFRA RTE X 
ph BK (x, 2) 满足 条 件 


K (x,z) =$(«) - (a), WEEK (2,2) 为 核 函数 ， 为 映射 函数 ， 式 
Hol) .9(z) Iola) 和 9(z) 的 内 积 。 
核 函数 的 本 质 是 将 输入 空间 通过 映射 函数 gz) 映射 到 特征 空间 


中 ， 对 于 很 多 问题 ， 在 原 至 间 中 是 线性 不 可 分 的 ， 但 是 映射 到 特征 空间 
后 束 成 了 线性 可 分 的 了 。 不 过 ， 利 用 核 亢 数 不 需 要 时 却 地 构造 映射 函数 
P(x) 。 


利用 的 核 函 数 有 以 下 几 种 。 
e 线 性 核 ， K(z,y) 一 Z yte 


e 多 项 式 核 : K(a,y) = (az +c)’ 

e@ 径 向 基 核 函数 : K(7x,y) =exp(-yl|le—yll*) 
eSigmoid 核 函数 : K (x,y) = tanh (a(z"y) +c) 

AS RAPALA TE BATT AA HI PROT IZ RIA S o Al 


i, EJERE RRA ALS GE, PPR TEAR TIE R -o 

己 知 输入 为 训练 集 ! = { (21, Y1), (Le, Yo), t (TN; yn) } ， 输 出 为 分 
FAR TE PR BL o 

D 选取 适当 的 核 函 数 K (7x,z) 和 适当 的 参数 C， 构 造 并 求解 优化 问 


N N N 
. 1 

i 二 1] j=1 i 二 1 

N 


由 于 K(x,z) 是 一 个 正定 核 ， 该 问题 是 个 凸 二 次 规划 问题 ， 因 此 解 
FE. KREN. 
2 得 到 ， 选 择 其 中 正 分 量 0<A 和 ;<C > IEEE 


b=y;— SAY K (a; T) o 
(3) 超 曲 面 的 方程 为 
N N 
> Ayi K (x;,2) Ts > AY: K (2:,£;) 二 0 
t=1 f= i 
NW lal LA He AE Ae A MAA B, ABP 4% PR AE TS UT PR) BA SS BE EF 
Pr) ell Re et MK PBIB CL Te] pel o 
2. 基 于 高 斯 过 程 的 函数 逼近 方法 [2 


高 斯 过 程 预测 是 给 定 训练 数据 集 D: 
= { X: = [z1 En] y: = [Wa Yl? AMR, RH EM 


xe 时 的 预测 值 (z:) 。 


定义 预测 值 f (zx) =f (2) te , BUS) 之 间 的 协 方差 矩阵 为 核 
函数 : 


cov(f (2),f(2)) =a? exp(-5 a-r) TAa) 
则 答 出 之 间 的 协 方差 矩阵 为 
cou( f (2), f(a’) =cov(f (a) +¢,f(@’) +e) 
= cov (f (x), f(x’) ) 十 cov(E;E) 
= k(x’) 十 52 了 


高 斯 过 程 回 归 是 在 函数 空间 上 建 模 ， 利 用 后 验 公 式 对 了 预测 值 进行 推 
理 得 出 ， 用 在 此 处 即 为 


p( (ze)ly) 


根据 已 知 条 件 ， 我 们 可 以 得 到 输入 y MHES a) 的 联合 概率 分 


布 。 由 于 输入 都 是 高 斯 分 布 ， 因 此 其 联合 概率 分 布 也 是 高 斯 的 ， 叉 由 于 
输入 值 没 有 任何 经 验 ， 因 此 输入 数据 的 先 验 均值 为 零 ， 输 出 的 均值 也 为 


今 
kx: =f 1 ae). ka = k ( tet) 0: — (K +071) “ty . K; = k(z;,£;) 
， 则 联合 高 斯 分 布 为 


reo we £) 


RLS} A SD Zee HEY AY 


Fon | =| 1 Nee 0 | 


k? ke] Lk? (K+02I)7 1 0 ke—k?(K +021) h 
fs ai "| 
0 1 
因此 ， 
= kakai uen 0 | 
k? ke) (0 l 0 (kee k? (K +02) the) 7 


-ratoa 1 
-ki (K+07)7 1 
根据 高 斯 分 布 公式 有 


(Pal p ae i JPA j Hl 
y [Tl -(K+021) khl (K+ 0 1 0 
=i F l | 0 本 ae d 


9 | 
(z+) 
= (F(a) -kT (K +021) ty) (kek? (K +021) th) (F(a) -kT (K +021) y) ty" (K+021)7y 由 联 
合 概率 分 布 公式 
p(y, fz)) =p( Faly) py) 


IRI E ESR OT De HR BAT ESE OS PT RAAB a 
布 : 


p( F (2)ly)~N (k? (K +021) ly, ke — k? (K + 021) k) 


Eh 


a? ( fe) = kee — kT (K +021) k» 


6.3.2 基于 参数 的 函数 逼近 


emits 绍 了 基于 参数 的 线性 逼近 。 我 们 再 回顾 一 下 ， 基 于 参数 的 
zk TEE 近 可 以 用 (6.18) 式 表 示 。 


v(s,0) =0* (s8) (6.18 ) 


在 利用 〈6.18) 式 线性 逼近 时 ， 首 先 要 选 基 函 数 几 cs) ， 再 根据 损失 
函数 训练 得 到 基 函 数 所 对 应 的 参数 。 这 种 线性 逼近 的 方法 表示 能 力 非 常 
有 限 ， 因 为 基 函 数 的 个 数 是 事先 固定 的 ， 对 于 复杂 的 函数 ， 数 量 太 少 的 
机 斤 效 果 ;， 而 且 基 函数 的 形式 是 事先 选 定 的 ， 这 也 
限制 了 函数 的 逼近 

RE 

有 。 第 一 种 方法 就 是 前 面 阐述 的 非 参 数 化 函数 逼近 方法 。 在 非 参 数 
化 函数 逼近 中 ， 我 们 看 到 基 函 数 的 个 数 和 形式 由 采样 点 决定 ， 因 此 非 参 
数 化 的 函数 逼近 方法 具有 无 穷 的 表现 力 。 但 是 ， 非 参数 化 的 函数 逼近 存 
在 着 维 数 灾难 和 随 着 数据 增多 计算 量 指数 升 高 的 问题 。 

第 二 种 方法 是 神经 网 络 。 神 经 网 络 可 以 看 成 是 基 函 数 参 数 化 的 一 种 
方法 。 为 什么 ? 

我 们 先 来 看 前 向 神经 网 络 ， 如 图 6.13 所 示 。 


(1) (2) 
Tı O (1) O Wii 
31 


+1@ 


layer | layer2 layer3 





图 6.13 Hil [a] 4H P 28 
该 神经 网 络 包括 三 层 ， 第 一 层 为 输入 层 ， 第 二 层 为 隐 含 层 ， 第 三 层 
为 输出 层 。 为 了 便于 表述 ， 我 们 做 如 下 符号 规定 。W ”表示 整个 神经 网 


络 的 结构 ， 在 图 6.13 中 .二 3 ， 将 第 1 层 记 为 LH ， 因 此 五 为 输入 层 ， 
L,, 为 输出 层 。 神 经 网 络 的 参数 用 (W,b) Ba, HWY 是 第 ! 层 第 7 
单元 与 第 1 十 1 层 第 i 单元 之 间 的 连接 参数 ，b;” 是 第 1! 十 1 层 第 i 单元 
的 偏 置 项 。 在 图 6.13 中 ， WER? WER? , 


21° 表示 第 / 层 第 i 个 单元 输入 加 权 和 ， 例 如 在 图 6.13 中 : 


ny Ny 
v. —_— 1 1 3) — 2 2 
zi = ; Wax, +d} ) zi 全 Wa, +d 


j=1 reil 


a 表示 第 ! 层 的 第 i ABBR, Way? = f(z”) . 
本 例 神经 网 络 的 前 向 计算 可 以 总 结 关 


29 =Wg+p 
a2 = f(z) 
28 =W2a2 + p® 
hw» (x) =a? = f(z) 
对 于 多 层 神经 网 络 ， 从 第 ! 层 的 激活 ”到 第 ! 十 1 层 的 激活 o > 
， 需 要 以 下 两 步 计 算 
Bw, 和 
z040 一 他 0Oao 十 10 (6.19) 
第 二 步 ， 将 线性 组 合 通过 激活 函数 得 到 第 ! 十 1 层 的 激活 arD : 
aS Nc Fg) ( 6.20 ) 
有 了 神经 网 络 的 基本 概念 ， 我 们 便 可 以 回答 ， 为 什么 神经 网 络 是 基 
函数 参数 化 的 一 种 方法 了 。 假 设 输出 层 没 有 经 过 激活 函数 ， 则 输出 为 
y =z = WOD ad p pD 
Hepa" | 可 以 看 成 基 函 数 或 特征 函数 ， 由 〈6.20) sta"! = 
f(W PaP?) ，a” 的 参数 为 前 恬 一 1 层 的 神经 网 络 权 


值 。 由 于 基 函 数 是 参数 化 的 ， 因 此 神经 网 络 比 其 函数 固定 的 线性 逼近 县 
有 更 强 的 函数 通 近 能 力 。 现 在 我 们 对 神经 网 络 有 了 初步 认识 ， 那 么 如 何 
更 新 网 络 权 值 以 便 实 现 函 数 盘 近 的 目的 呢 ? 神经 网 络 的 训练 使 用 的 是 反 
问 传 寻 算 法 。 

神经 网 络 的 反 同 传导 算法 的 基本 中 路 如 下 。 

神经 网 络 根据 损失 函数 ， 反 同 传 播 更 新 权 值 。 设 训练 样本 集 为 


T = ‘a a), = fa ay) 


对 于 单个 样本 (Z”,yV”) ， 构 造 平 方 损失 函数 为 
1 
J (W,b;2,y) -= 9 LNE y? | i 


因此 训练 集 上 上 的 损失 函数 为 


J(W,b) = IW, b;2°,y)| + aS ws © (6.21) 


=1 ti=1 j= 


FLAP BR BLE AE 7 KR HEERA od 2h a WEB 
fis 第 二 项 为 权 值 正则 项 ， 目 的 十 防止 网 络 过 拟 合 。 


有 了 损失 函数 ， 我 们 便 可 以 利用 棉 度 下 降 法 来 更 新 每 个 权 人 
Wi 和 b;”， 其 更 新 公式 为 


o 
w= WY 一 :化 一 一 一 一 六 awe J (W,b) 
( 6.22 ) 
pO = bo — one J (W, b) 


计算 (6.22) SRS BEE RIAR BA BAA eT BES EL PE. f 
(6.21) {RA (6.22) 可 以 得 到 


— J(W,b) = 4 T Da gwg I W,b:2.y)) + AWY 


( 6.23 ) 
O 1 O — 
a od (Wb) == > ara (W, bss sy ) 
5 


计算 损失 函数 对 第 ! 层 权 值 的 梯度 ， 可 以 利用 后 同 传导 的 方法 递 推 
得 到 。 也 就 是 说 损失 函数 对 / 层 权 重 的 梯度 可 由 第 ! 十 1 层 的 量 计 算得 
到 。 如 何 得 到 呢 ? 下面 我 们 具体 推导 一 下 。 

第 一 步 ， 利 用 (6.19) A (6.20) 式 正 向 计算 每 一 层 的 激活 值 


(1) (2) (n) 
eee , aA ， 


Bo, TRH, ates RAR. TRA etn KK BOT 
每 个 神经 元 输入 的 偏 导 。 
对 于 输出 层 ， 可 计算 如 下 : 


gi — 








2 
T Sow 5 lly — hr (2) 





a? DORER 
= (umat): PO) 
Bow, Maes, Bata Re 
m= 1s fiz, 人 HZ o HRAN 
5 = 这 wes”) PP) ， 推 导 过 程 如 下 。 
HELE, Enl ERREN 


Da 
i o J 10 
6? =~ J (W,b;2,y) = (Wa) 
AOzm' Oz” ad, J J 
ics 8 
= 35 nı 一 i—i i i 
7 可 ff J ( J )) 


Si, 
| n 0 n 
= D1) gete) 


a2 


-> (wy—} z;"") )) Fer reco) 


HH (6.19) 式 和 (6.20) 式 得 


( 6.24 ) 





Sut 
A= DOP) Wet HOP (6.25) 
k=1 


% (6.25) ARA (6.24) 式 得 


Sn, 
6" P= > wa Per) ( 6.26) 
a=] 
Bm —1 和 mi 的 关系 蔡 换 为 1 与 1 十 1 的 关系 ， 可 以 得 到 残 差 的 反 向 
迭代 计算 公式 ; 


j= 这 wes?) PzP) (6.27) 
PE 
第 四 步 ， 计 算 仿 导数。 
STI W, bie) = BR Wbiny) « (6.28) 
将 (6.19) BURA (6.28) 式 得 
Li, bry) =a 0T 
> (6.29) 
set J (W,b;2,y) =63t» 


Be BATT RAIE aE ee Pee, AEE (6.27) 式 。 如 图 
6.14 ANY BU Tl 4H ZS PA 28 Ae IS AE HE < 
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图 6.14 前 问 神 经 网 络 残 莽 反 癌 传 播 的 图 示 
假设 我 们 已 经 求 得 第 ! 十 1 层 的 残 差 6*"”， 则 第 1 层 的 第 i 个 节点 
对 应 的 残 差 如 〈6.27) 式 所 示 ， 即 


P= 这 wipes?) PP) 
j=l 
从 该 式 中 我 们 看 到 ， 第 1 层 第 i 个 节点 的 残 差 需要 计算 第 ! 十 1 层 的 
RIO” 乘 以 连接 该 节点 的 权重 全 多 并 求 和 >》 WED, 
j=1 


至 些 ， 我 们 对 前 同 神 经 网 络 的 反 同 求 导 过 程 有 了 比较 清楚 的 认识 。 
再 回 到 之 前 的 话题 ， 将 神经 网 络 看 成 一 种 参数 化 基 汞 数 的 方法 可 以 加 深 
对 神经 网 络 的 理解 。 由 于 基 函 数 的 参数 是 从 数据 中 学 习 得 到 的 ， 因 此 其 
表示 能 力 大 大 提升 。 神 经 网 络 有 的 每 层 都 可 看 成 是 基于 上 一 层 的 狐 的 基 思 
数 ， 也 就 是 特征 。 从 这 个 音义 上 理解 ， 后 面 一 层 是 前 面 一 层 的 抽象 ， 这 
样 可 以 对 高 维 输入 降 维 。 和 浅 层 网 络 相 比 ， 深 度 网 络 具 有 更 强 的 表示 能 
JJe WEAR EPI ZR BORA RARE ACE, TREES SY OE BT AL M 
用 ， 尤 其 是 卷 积 神经 网 络 (CNN) ， 被 广泛 应 用 于 强化 学 习 中 ， 是 次 度 
强化 学 习 算 法 最 常用 的 深度 网 络 。 接 下 来 我 们 详细 介绍 下 卷 积 神经 网 


6.3.3 TARIE ZS W] 24 


在 深度 神经 网 络 中 ， 网 络 的 参数 个 数 往 往 达 到 几 万 甚至 几 百 万 ， 很 
难 训练 。 卷 积 神经 网 络 则 通过 卷 积 和 池 化 降低 参数 个 数 ， 加 快 网 络 训练 
过 程 。 下 面 我 们 分 别 介 绍 卷 积 和 池 化 。 

1.45 Ais FB 

在 数学 上 ， 卷 积 是 两 个 函数 之 间 的 运算 ， 即 


s(t) = [suo a 


w, BOA eS ORR AN ERIS, R 
s(t) = (zxw) (t) 

TEAS AAS ZS ZR ANE, 2 PB BER BLL Ls BR ATA, 
Ginput) , BTS Rw PARRA BPAY. TEIR 
及 学 习 中 ， 输 入 往往 是 多 维 数 组 ， 如 输入 是 图 片 时 ， 可 表示 为 二 维 数 
2H 

FEST HERE Fire ie , UE KO AEWA RL 作为 输入 ， 这 时 
(FA ARK the EA. TOK; M AeA A 

S(i,j) = UK) (i,j) = LUI (m,n) K (i —m,j — n) 


SH AIG.ISPTAN NEREIS, RARER ie ASP “aR 





卷 积 核 K 输出 S 


图 6.15 二 维 卷 积 操作 

卷 积 神经 网 络 将 卷 积 操作 引入 神经 网 络 的 设计 中 ， 其 中 卷 积 核对 应 

权重 回 量 ， 卷 积 操作 通过 黎 距 连接 和 权 值 共 孚 帮助 改进 神经 网 络 系统 。 
(1) MER. 

在 前 向 神经 网 络 中 (参见 图 6.13) ， 每 层 神经 元 之 间 的 连接 为 全 连 
接 。 若 积 核 使 相 邻 层 之 间 的 连接 不 再 是 全 连接 ， 而 是 使 神经 元 只 和 临近 
的 神经 元 相连 接 。 

如 图 6.16 所 示 为 神经 网 络 稀 玖 连接 和 全 连接 的 示意 图 ， 其 中 图 A 为 
Pi REFN ZR, Al B 为 全 连接 网 络 。 以 输入 状态 Z2 为 例 ， 在 稀 臣 连接 
中 Z2 只 与 下 一 层 相 邻 的 3 个 神经 元 相连 ， 而 在 全 连接 网 络 中 ，22 与 下 
一 层 的 所 有 和 神经 元 相连 。 同 样 ， 下 一 层 的 52 TEER UR Sa ASE 
的 Ti T233 相连 接 ， 在 全 连接 中 ， S 要 与 上 一 层 所 有 的 输入 相连 。 在 
二 维 的 卷 积 操作 中 《参见 网 6.15) ， 下 一 层 的 元 素 只 通过 核 与 上 一 层 的 
部 分 输入 相连 ， 相 连 的 输入 个 数 由 卷 积 核 的 大 小 雇 定 。 在 这 里 ， 卷 积 核 
相当 于 神经 元 中 的 感受 对 。 稀 焉 连接 大 大 减少 了 深度 神经 网 络 的 权 但 。 
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(2) PUB FES 
权 值 共 圣 ， 是 指 和 神经 元 在 连接 下 一 层 神 经 元 时 使 用 相同 的 权 什 。 如 


图 6.17 所 示 为 神经 网 络 权 值 共 圣 的 示意 图 。 在 权 值 非 共 圣 的 前 癌 神 经 网 
络 中 ， 每 个 连接 痢 对 应 看 个 同 的 权 值 ， 而 在 权 值 共 对 机制 中 ， 权 值 处 处 


相同 。 在 图 6.17 的 例子 中 ， 前 向 神经 网 络 的 权 值 为 Wii, W2, W33, Waa , 
它们 在 权 值 共 圣 的 机 制 下 共 圣 一 个 权 值 。 权 值 共 圣 机 制 再 次 急剧 减少 了 
神经 网 络 的 权 值 数 。 





BA Re 图 B 权 值 不 共享 


图 6.17 神经 网 络 权 值 共享 示意 图 
2. 闻 化 
所 请 池 化 ， 束 是 用 茶 区 域 的 统计 特征 来 表示 该 区 域 。 我 们 举 个 例子 
说 明 。 如 图 6.18 所 示 为 最 大 池 化 示意 图 ， 左 上 角 区 域内 的 元 系统 计量 为 
最 大 值 1， 所 以 池 化 后 代表 左上 角 的 元 素 为 1， 以 此 类 推 。 


池 化 
— 





图 6.18 池 化 操作 示意 图 

池 化 操作 也 可 参数 化 ， 如 区 域内 所 有 元 和 素 相 加 再 乘 以 一 个 可 训练 的 
参数 再 加 上 一 个 可 训练 的 偶 置 参数 。 

TEAS AA SH ZS ZS CCNN) F, ERME LBH. TAI ZR 
RAK AFERE AT PHS PZ A CRRA Coe. UEC NEAR 
ee VE, JE EH ARR eB, J MHE 
图 像 识 别 领域 。 在 视频 游戏 中 ， 由 于 输入 是 图 像 ， 因 此 用 CNN 结 构 的 神 
经 网 络 盟 近 值 函数 效果 很 好 。 

如 图 6.19 所 示 为 典型 的 卷 积 神经 网 络 LeNet 网 络 结构 ， 其 中 卷 积 层 
和 池 化 层 常 第 交叉 连接 。 下 面 我 们 详细 讲解 每 一 层 。 


C3 层 16 个 S4 层 16 个 
特征 图 


C1 层 6 个 特征 图 S2 层 6 个 bie 10 
28 X 28 特征 图 。 [ 硬 二 








32 X 32 











输入 层 卷 积 层 1 池 化 技 1 卷 积 层 2 池 化 层 2 “” 卷 积 层 3 全 连接 层 输出 层 
图 6.19 LeNet 神 经 网 络 结构 
GQ) 输入 层 。 输 入 一 张 32x32 像 素 大 小 的 图 像 。 


© 卷 积 层 1 即 C1 层 。 用 5x5 的 卷 积 核 对 输入 为 32x32 的 图 像 做 卷 积 操 
作 (参见 图 6.15) 。 由 于 不 考虑 拓展 图 像 的 边界 ， 用 5x5 的 卷 积 核 卷 积 


操作 后 ， 特 征 图 的 大 小 变 为 28xx28。 从 输入 层 到 C1 层 一 共用 了 6 个 不 同 
的 关 积 核 ， 每 个 卷 积 核 得 到 一 幅 特 征 图 ， 因 此 该 层 一 共 得 到 6 个 特征 
图 。 每 个 着 积 核 可 训练 的 参数 为 25 个 ， 每 个 卷 积 核 有 一 个 偏 置 ， 因 此 该 
层 共 有 “(5x5+1〉x6=156 个 可 训练 的 参数 。 

© 池 化 层 1， 即 下 采样 层 S2 层 。 这 里 采用 的 池 化 操作 为 参数 化 池 化 
操作 。 具 体 为 池 化 区 域内 所 有 元 又 相 加 再 乘 以 一 个 可 训练 的 参数 ， 然 后 
加 上 一 个 可 训练 的 偏 置 参数 。 每 个 特征 图 对 应 看 一 组 可 训练 的 池 化 参 
数 ，6 个 特征 图 共有 12 个 可 训练 的 参数 。 下 采样 层 可 用 如 下 公式 表示 : 


zp = f (B7 down (s ®) +09) (6.30) 

其 中 可 训练 的 参数 为 8” 和 0 ， 了 为 激活 函数 。 

D 卷 积 层 2， 即 C3 层 。 该 层 包 括 16 个 特征 图 。 如 何 从 S2 层 得 到 C3 层 
We? 如 图 6.20 所 示 为 $2 层 和 C3 层 之 间 的 连接 结构 。 我 们 举例 说 明 该 图 的 
含义 。 

先 看 第 一 列 ， 它 的 意思 是 C3 层 的 第 一 个 特征 图 与 52 层 中 的 第 
2、3 个 图 相连 。 更 形象 的 表示 如 图 6 21 上 所 示 。 
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图 6.20 从 S2 层 到 C3 层 的 连接 结构 




















卷 积 层 2 

图 6.21 从 S2 层 到 C3 层 

从 图 6.21 中 可 以 看 到 ， 池 化 层 有 6 个 特征 图 ， 这 些 特征 图 经 过 与 着 
HA 的 卷 积 操作 得 到 C3 层 的 16 个 特征 图 ， 其 中 天;， 为 作用 到 S2 层 中 
的 第 j 个 特征 图 并 连接 到 C3 层 第 i 修 特征 图 的 卷 积 核 。 图 6.20 展 示 LeNet 神 
经 网 络 S2 层 与 C3 层 的 连接 方式 : 一 共有 60 个 不 同 的 郑 积 核 ， 而 每 个 益 
只 核 有 5x5=25 个 可 训练 的 参数 。C3 层 每 个 特征 图 都 有 一 个 偏 置 ， 因 此 
该 层 中 可 训练 的 参数 个 数 为 5x 5 60+1x16=1516 个 。 

卷 积 层 可 用 如 下 公式 表示 。 


=s( 2 geek? +a) (6.31 ) 
JEM; 


ERM; 表示 选择 的 输入 图 的 集合 ， 如 图 6.20 所 示 是 LeNet 神 经 网 络 
的 连接 集合 M 。 


(5) 池 化 层 2 即 $4 层 是 一 个 下 采样 层 。 它 由 16 个 5x5 的 特征 图 构 
成 。 与 S2 层 一 样 ， 下 采样 层 可 用 公式 (6.30) 计算 得 到 。 一 共 可 训练 的 
参数 个 数 为 16x2=32 个 。 

(6) 知 积 层 3 即 C5 层 ， 有 120 个 特征 图 。C5 层 中 120 个 特征 图 的 每 
个 特征 图 都 与 54 层 的 16 个 特征 图 相连 。 运 算 公 式 为 (6.31) ， 其 中 不 同 
卷 积 核 的 个 数 为 16x 120， 每 个 着 积 核 可 以 训练 的 参数 为 5x5， 因 此 该 层 
可 训练 的 参数 个 数 为 16x120x5x5+120=48120。 

(7) 全 连接 层 即 F6 层 ， 包 括 84 个 单元 ， 与 C5 层 全 连接 。 这 一 层 和 
普通 的 前 问 神 经 网 络 没 有 任何 区 别 ， 一 共 可 训练 的 参数 个 数 为 84x 


120+84=10164. 
(8) 输出 层 包 括 10 个 单元 ， 每 个 单元 有 84 个 输入 ， 每 个 单元 的 输 
出 由 欧式 径 向 基 函 数 给 出 。 有 具体 计算 公式 为 
Yi 一 > (s; — Wy)” 


HET; 为 F6 层 的 输出 ， Yi 为 输出 。 

至 此 ， 我 们 详细 介绍 了 典型 卷 积 神经 网 络 的 构成 。 

下 面 我 们 再 来 了 解 卷 积 神经 网 络 是 如 何 反 向 传播 的 [10] 。 

卷 积 神经 网 络 反 向 传播 包括 卷 积 核 梯 度 的 求解 和 池 化 层 梯度 的 求 
解 ， 下 面 一 一 介绍 。 
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图 6.22 卷 积 神经 网 络 卷 积 层 
Bi, WARIA E RAR o 
AIRT [a] HS PX] 2% EN Sz E RLE AE, ARA a 1 Gg ESI 
计算 当前 层 的 残 差 。 如 图 6.22 所 示 ， 根 据 网 络 结构 ， 当 前 层 的 残 差 6 
由 下 层 采 样 层 6;*” 反 向 传播 得 到 ， 计 算 公 式 为 


6:9 = BY" (P (2) o up (6) ( 6.32 ) 
AS IRAE LIA WRAAK TEIRA YF BLA DA k 


OF 
aKo~ (67?) ww (PF d a ( 6.33 ) 


其 中 PY ”为 卷 积 操作 时 ， 与 卷 积 核发 生 作用 的 第 /一 1 层 卷 积 层 
上 的 patch。 由 于 权 值 共享 ， 与 卷 积 核 相 乘 的 patch 的 个 数 为 第 ! 层 卷 积 层 
特征 图 的 维 数 。 逆 向 传播 计算 卷 积 核 的 梯度 时 ， 权 重 共享 主要 体现 在 要 
将 参与 相同 卷 积 核 运 算 的 所 有 patch 加 起 来 ， 因 此 (6.33) 式 是 一 个 加 和 
的 形式 。 

第 二 ， 池 化 层 梯 度 的 求解 。 

如 图 6.23 所 示 为 卷 积 神经 网 络 的 池 化 层 梯度 求解 ， 利 用 (6.27) 可 
求 得 当前 层 的 网 络 残 差 为 


if bs Kpa») peP) (6.34) 
j=1 
67 l 
ii 
K; 
下 采样 TJ 
py" b;" | 
i fal 
第 ! 一 1 层 第 ! 技 第 ! 十 ] 层 
卷 积 层 池 化 层 卷 积 层 


图 6.23 卷 积 神经 网 络 池 化 层 
在 池 化 层 中 ， 梯 上 度 反 同 传 播 时 需要 经 过 下 采样 ， 因 此 定义 下 采样 为 


di? = down (a!) ( 6.35 ) 


HH (6.34) 式 和 (6.35) 式 得 到 字 化 层 梯 度 反 辐 传 播 公式 为 


OE 


OF 
ab. 之 Cpr 





( 6.36 ) 


6.4 习题 


LATTA 25] MAR Boe UT, EY DAR RIB EE [a] jell 
2. 试 看 用 DQN 方 法 玩 雅 达 利 游戏 。 

3. 试 看 比较 DQN 及 其 变种 的 效 末 。 

4. 修 改 神经 网 络 的 优化 方法 并 比较 效 朱 。 
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7.1 基于 策略 梯度 的 强化 学 习 方法 理论 讲解 


从 本 草 开 始 ， 我 们 学 习 强 化 学 习 中 万 一 奖 很 重要 的 方法 : HRE 
搜索 方法 。 如 图 7.1 所 示 为 强化 学 习 方 法 的 分 类 示 音 图。 


序 贯 决策 问题 
时 


马尔 科 夫 决策 过 程 MOP (S,A,P,R,y) 





(S,A,P,R,y) 


基于 模型 的 动态 规划 方法 无 模型 的 强化 学 习 方 法 
策略 迭代 值 迭代 策略 搜索 策略 搜索 (Bit 策略 迭代 


图 7.1 强化 学 习 方法 的 分 类 

从 第 1 音 到 第 6 章 ， 我 们 先 阐述 了 值 函数 的 方法 。 广 义 值 函数 的 方法 
包括 策略 评估 和 策略 改善 两 个 步骤。 当 值 函数 最 优 时 ， 策 略 是 最 优 的 。 
此 时 的 最 优 策略 是 贪 焚 策 略 。 贫 焚 策 略 是 指 argmax Qolsa) ， 即 在 状 
态 为 s 时 ， 对 应 最 大 行为 值 函数 的 动作 ， 它 是 一 个 状态 空间 向 动作 空间 
的 映射 ， 该 映射 就 是 最 优 策略 。 利 用 这 种 方法 得 到 的 策略 往往 是 状态 空 
间 向 有 限 集 动作 空间 的 映射 。 

策略 搜索 是 将 策略 参数 化 ， 即 To (s) :利用 参数 化 的 线性 函数 或 非 
线性 函数 〈 如 神经 网 络 ) 表示 策略 ， 寻 找 最 优 的 参数 ， 使 强化 学 习 的 目 


(S,A,P? R? y? ) 





标 一 一 索 积 回报 的 期 户 可 六 Rom 最 大 。 

在 信函 数 的 方法 中 ， 我 们 运 代 计算 的 是 信函 数 ， 册 根据 值 函 数 改善 
RMS; METRE RIE, RAJAI RMR ET IAIN, thie 
NE PRINS SUA, BP RRRA, ESATA Dy Ay 


策略 为 最 优 策 略 。 

在 正式 了 解 策略 搜索 方法 之 前 ， 我 们 先 比 较 一 下 值 函数 方法 和 直接 
策略 搜索 方法 的 优 缺 点 。 其 实 正 是 因为 直接 策略 搜索 方法 比值 函数 方法 
拥有 更 多 的 优点 ， 我 们 才 有 理由 或 动机 去 研究 和 学 习 并 改进 直接 策略 搜 
索 方法 。 

1) 直接 策略 搜索 方法 是 对 策略 ”进行 参数 化 表示 ， 与 值 函 数 方 
法 中 对 值 函 数 进行 参数 化 表示 相 比 ， 策 略 参 数 化 更 简单 ， 有 更 好 的 收敛 
性 。 

(2) 利用 值 函数 方法 求解 最 优 策 略 时 ， 策 略 改善 需要 求解 
argmax Qo(s,4) ” ， 当 要 解决 的 问题 动作 空间 很 大 或 者 动作 为 连续 集 
时 ， 该 式 无 法 有 效 求解 。 

(3) 直接 策略 搜索 方法 经 常 采用 随机 策略 ， 因 为 随机 策略 可 以 将 
探索 直接 集成 到 所 学 习 的 策略 之 中 。 

与 值 函数 方法 相 比 ， 策 略 搜索 方法 也 普遍 存在 一 些 缺点 ， 比 如 : 

(1) 策略 搜索 的 方法 容易 收敛 到 局 部 最 小 值 ; 

(2) 评估 单个 策略 时 并 不 充分 ， JERK. 

最 近 十 几 年 ， 学 者 们 针对 这 些 缺 点 正在 探索 各 种 改进 方法 。 已 经 成 
功 应 用 策略 搜索 方法 的 案例 如 图 7.2 所 示 。 
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图 7.2 直接 策略 搜索 方法 的 成 功 案例 

从 图 7.2 可 以 看 出 ， 直 接 策 略 搜索 的 方法 主要 应 用 在 机 工人 和 游戏 

等 领域 。 本 章 主 要 讲解 策略 梯度 的 方法 ， 第 8 章 介绍 TRPO 方 法 ， 第 9 章 

介绍 确定 性 案 略 搜索 方法 ， 第 10 划 介绍 GPS 方 法 ， 第 11 半 介绍 他 同 强化 
学 习 方 法 。 这 些 方法 之 间 的 关系 可 用 图 7.3 表 示 。 


荣 略 搜索 方法 







无 模型 的 策略 搜索 万 法 基于 模型 的 策略 搜索 万 法 


单调 步 长 





引导 策略 搜索 (GPS) 
传统 控制 器 + 监督 学 习 





图 7.3 策略 搜索 方法 分 类 

束 略 搜索 方法 按照 是 舍利 用 模型 可 分 为 无 模型 的 东 略 搜索 方法 和 基 
于 模型 的 案 略 搜索 方法 。 其 中 无 模型 的 东 上 略 搜索 方法 根据 菏 略 是 来 用 随 
机 策略 还 古 确 定性 东 略 可 分 为 随机 策略 搜索 方法 和 确定 性 集 略 搜索 方 
法 。 随 机 琐 略 搜索 方法 最 和 完 友 展 起 来 的 是 东 略 株 度 方法 ; (EREE ENT 
法 存在 学 习 速 率 难 以 确定 的 问题 ， 为 回避 该 问题 ， 学 者 们 义 所 出 了 基于 
统计 学 习 的 方法 和 基于 路 径 积 分 的 方法 。 但 TRPO 方 法 并 没有 回避 访问 
题 ， 而 是 找到 了 将 代 损失 函数 一 一 利用 优化 方法 在 每 个 局 部 点 找到 使 损 
失 函 数 单调 非 增 的 最 优 步 长 ， 我 们 在 下 一 草 再 重点 讲解 。 

下 面 我 们 分 别 从 似 然 率 的 视角 和 重要 性 采样 的 视角 推导 策略 梯度 
[13] 


第 一 ， 从 似 然 率 的 视角 推导 蛇 略 柳 度 。 
FAT 表示 一 组 状态 -行为 序列 $0,Wo,… SH, Un 。 


符号 及 (7) = XO (si,wi) 表示 轨迹 7 的 回报 ，P(7;0) 表示 轨迹 7 


出 现 的 概率 ; 强化 学 习 的 目标 函数 可 表示 为 


U (0) -zl> RCs = X P(7;0)R(7) 


强化 学 习 的 目标 是 找到 最 优 参 数 ， 使 得 
maxU (0) = max ) | P(r; 0) R(T) | 

这 时 ， 开 略 搜 索 方 法 实际 上 变 成 了 一 个 优化 问题 。 解 决 优化 问题 有 
很 多 方法 ， 比 如 最 速 下 降 法 、 牛 顿 法 、 内 点 法 等 。 

其 中 最 和 窗 单 、 也 最 第 用 的 是 最 速 下 降 法 ， 此 处 称 为 贫 略 梯度 的 方 
法 ， 即 Osow = Ooa + a VoU (A) ， 问 题 的 关键 是 如 何 计算 策略 梯度 


VU (0). 
我 们 对 目标 函数 求 导 : 
VoU (0) =Vo > P(1;0)R(r) 


= 》 VoP(rig)R(7) 





> a VeP(7;0) R(T) 


Vo P(7T:0) R(T) 
E = DPC Dine) P(7;6) 


= 5 P (736) VologP (730) R(r) 


(7.1) 

最 终 策 略 梯 度 变 成 求 VologP(7;0) R(T7) 的 期 望 ， 这 可 以 利用 经 验 

平均 估算 。 因 此 ， 当 利用 当前 策略 rw。 采样 m 条 轨迹 后 ， 可 以 利用 m 条 轨 
迹 的 经 验 平均 和 逼近 策略 梯度 : 


V,U (0) ~9= =e VologP (7;0) R(T) (7.2) 
第 二 ， 从 重要 性 采样 的 角度 推导 策略 梯度 。 
目标 函数 为 U (90) -5(>) RC) > _P(7;0) R(r) o 


利用 参数 baa 产生 的 数据 评估 参数 0 的 回报 期 望 ， 由 重要 性 采样 得 


P(7;0) 
P (T| Ooa) 





U (0) = 》 已 (r|gua) R(r) 


(7.3) 
P(7|) 


P (T| Ooa) 





= Eron | R(r) 
导数 为 


VoP (7|9) 
P (7|00a) 





VOD = Eo.) RO) (74) 


QO=Goa ， 得 到 当前 策略 的 导数 : 


VoU (9) |o= 6. 


VoP (719) | 6 = | 
POCO R(T) (7.5) 


= Ee, [VelogP (7|9)|o,, R(T) | 


IA E ERKE A HA THE Se AS MS a BE ANF E SAARE BY OL AH E 
的 结束 ， 更 重要 的 是 得 到 了 原来 目标 函数 新 的 损失 函数 : 


U (6) = Erau EAD RC) ， 下 面 我 们 重点 从 直观 上 理解 一 下 似 
然 率 策略 梯度 。 


= E, Oia | 





前 面 利用 似 然 率 方法 推导 得 出 策略 梯度 公式 为 
Vo (0) m= a 2 VologP (ORC) 


Pa Al AAT AY VologP(T;0), RO) 。 


第 一 项 VologP(7;9) 是 轨迹 7 的 概率 随 参数 0 变化 最 陡 的 方向 。 参 
DUET EIN, Ate ETT TA, MAAT 的 概率 会 变 大 ; 石 沿 看 
负 方 问 更 新 ， 则 该 轨迹 7 的 概率 会 变 小 。 

第 二 项 及 (7) 控制 了 参数 更 新 的 方向 和 步 长 。 有 (7) 为 正 且 越 大 则 
参数 更 新 后 该 轨迹 的 概率 越 大 ， Ror) 为 负 ， 则 降低 该 轨迹 的 概率 ， 抑 
制 访 轨迹 的 肥 生 。 

A, MEI ENRERE, RITER E E A r eli 
IERE, WMR EIRENE. WRT., m iR KERA IL 
迹 概率 被 增 大 ， 低 回报 区 域 的 轨迹 概率 被 减 小 。 


一 BARI 






图 7.4 策略 梯度 的 直观 理解 示意 图 
十 面 推 叶 出 策略 标 度 的 求解 公式 为 


a JI 
VoU (0) ~$=— > | VologP (738) R(r) 


现在 ， 我 们 解决 似 然 率 的 梯度 问题 ， 即 如 何 求 VologP(7;0) 。 
GAUT 5 S0,U0, SF ， 则 轨迹 的 似 然 蒜 可 写成 


H 
P(r®;6) = | | PERE a) - m9 (uf?|s/) (7.6) 
=0 


HP, P(shils)?,ur?) 表示 动力 学 ， 无 参数 ， 因 此 可 在 求 导 过 程 
中 消 挥 。 具 体 推 如 参见 公式 (7.7) 。 


VologP(r ;0) = volo! J [Pea 5 Ur”) * Te ls) 
=V; er (lP us?) + Yen (us|se” ) 

t=0 

H 
= Wy bs logre (ut |s? ) 

t=0 


H 
— >》 Vo logre (uls) 
D 


(7.7) 


MAR 7.7 WARRE, MAKE ERE AE R E AII E , 
SANAFICK, AMA u RAER E I Ee ? 


RITA — ME DLE RN EAN TT EE 
通常 ， 随 机 策略 可 以 写成 确定 性 策略 加 随机 部 分 ， 即 
Te = Ho T E 
高 斯 策略 s~NW(0,a ) ， 是 均值 为 零 ， 标 准 差 为 o 的 高 斯 分 布 。 
AL Et PB) EE PE PE BS op JE A ZS IN UA BT SN 
线性 案 略 : p(s) 二 90(s) 70; 


FRERE: Tols) =w" f(s), 其 中 ， 
$: (s) =exp(-5 (6 — m)” D:(s— m)) 
参数 为 = Ww, Hi, Qi o 


RAI EERO E EREE AAAH logre (uls) 是 如 何 


Hen luls)- exp- EEA ， 利 用 充分 布 采样 ， 


26" 
得 到 ， 然 后 将 (P uP) 代入 ， 得 


( __ (i)\ T (i) 
Vologre (u;”|s:”) = ole Oe) aa Dole) 
其 中 方差 参数 c” 用 来 控制 策略 的 探索 性 。 

HHE, SRE TA HS is BEES TP GE ZS TU 


m H 
z 1 Sa n : 
VoU (0) = 9 = — 5| Vologrr peer (7.8) 
0 


(7.8) 却 的 案 略 梯度 是 无 俩 的 ， 但 方差 很 大 ， 我 们 在 回报 中 引入 
各 数 基线 b 减 小 方差 。 
首先 ， 证 明 当 回报 中 引入 和 帝 数 b 时 ， 守 上 略 梯度 不 要， 即 


Vo (8) ~9= =X > VologP (r;0) R(T®) 
“一 


= FD VologP (79:0) (R(T®) —) 


证 明 
E|V,logP (7;6)b] 
一 > P(1;0)VologP (7;0)b 
Yee 0)b 
= Serine 


= WY, 2 P(T 00) 
— Vob 
一 0 
然后 ， 我 们 求 使 得 策略 梯度 的 方 过 最 小 时 的 基线 b。 
4X — VologP (T®;0) (R(T' 7 ) 和 b) ’ 则 方才 为 
Var(X) = E(X = X) “~ EX? — EX? 
方差 最 小 处 ， 方 差 对 b 的 导数 为 零 ， 即 


OVar(X) | OX\ | 
ab = B(x 3) =0 


其 中 对 二 BX 与 b 无 关 。 


J (> Volog7re (uP |s” ) R | 
> (> VologTre (ut”|s;” ) | 


(7.9 ) 


除了 了 上面 介 绍 的 增加 基线 的 方法 外 ， 修 改 回报 函数 也 可 以 进一步 减 
NTT Fes UCAS FIP ZA 
JAER, REEE Zs TUBE 


V,U (0) = = SS Vologm (u®|s®) (R(T®) 一 ) (7.10 ) 


i=1 


其 中 ，b 取 〈7.9) 式 。 我 们 进一步 分 析 公式 〈7.10) 。 在 公式 
(7.10) 中 ， 每 个 动作 ww” 所 对 应 的 Yologre (uisi) 都 乘 以 相同 的 该 


轨迹 的 总 回报 (R(T7T”) 一 了) ， 如 图 7.5 所 示 。 


T.: xp 和 


图 7.5 REINFORCE 方 法 


然而 ， 当 前 的 动作 与 过 去 的 回报 实际 上 是 没有 关系 的 ， 即 
E,[Oologne (ulr, t)r] =0 for j<t 


因此 ， 我 们 可 以 修改 《7.10) 中 的 回报 函数 ， 有 两 种 修改 方法 。 
第 一 种 方法 称 为 G (PO) MDP， 如 图 7.6 所 示 。 


m H-1 k] 
1 po" 
VU (0) xX m > > » Vo log7, (uls) (r; — s) 
I j=0 \t=0 


2 = 


ti ae oe 59, U9, foara 


图 7.6 G (PO) MDP 方 法 


第 二 种 方法 称 为 策略 梯度 理论 ， 如 图 7.7 所 示 。 


1 m a—1 | | H — 1 | 
VU (0) = a ; ; Ve log (u |s®) | (R(s¢”) -») 
i=1, =0 =i 


b: ee 7 a 


图 7.7 策略 梯度 理论 
为 了 使 方 过 最 小 ， 可 以 利用 前 面 的 方法 求解 相应 的 基线 b。 


7.2 基于 gym 和 TensorFlow 的 策略 梯度 算法 实现 


本 节 我 们 需要 使 用 TensorFlow， 为 此 先 安装 一 下 CPU 版 的 


TensorFlow. 


7.2.1 安装 Tensorflow 


TensorFlow H] 28 27 GRY T o 

© TEAME CRA A 1.5.17) : source 
activate gymlab 

(2) 安装 的 TensorFlow 版 本 为 1.0.0，Python=3.5。 命 令 如 下 : 

pip install--ignore-installed--upgrade 

https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-1.0.0- 
cp35-cp35m-lin ux_x86_64.whl 


根据 该 命 令 所 安装 的 TensorFlow 是 无 GPU 的 ， 无 GPU 的 TensorFlow 
可 以 满足 学 习 的 需求 ， 如 果 要 做 项 目 ， 则 建议 安 疼 GPU 版 的 


TensorFlow. 
(3) 安装 一 个 绘图 模块 ， 命 令 如 下 : 


pip3 install matplotlib 


7.2.2 策略 梯度 算法 理论 基础 
我 们 在 7.1 节 阐述 了 策略 梯度 的 理论 推导 ， 随 机 策略 的 梯度 如 下 : 
Vod (mo) = E,po a-n, VologTo (als) Q” (s, a) ] 
7.1 市 已 介绍 当 随机 策略 是 局 斯 策略 时 随机 标 度 的 计算 公式 ， 妆 随 
机 策略 并 非 高 斯 集 略 时 ， 该 如 何 优化 参数 ? 


我 们 仍然 以 gym 环 境 中 典型 的 小 车 倒立 摆 系 统 为 例 ， 说 明 如 何 利用 
束 上 略 柳 度 理论 解决 倒立 押 平 衡 问题 。 小 车 倒立 授 系统 如 图 7.8 所 示 。 


| 


图 7.8 小 车 倒立 摆 系 统 
图 7.8 是 基于 gym 构建 的 小 车 倒立 摆 环 境 ， 可 以 看 出 小 车 倒立 摆 的 
状态 空间 为 |z,j,0,9| ， 动 作 空 间 为 {0, 1》。 当 动作 为 1 时 ， 施 加 正 向 的 
力 10N; 当 动 作为 0 时， 施加 人 负 问 的 力 10N。 
由 于 动作 空间 是 离散 的 ， 我 们 设计 随机 策略 为 ”Softmax 策略 。 那 
么 ， 如 何 构建 Softmax 策 略 ， 如 何 构 建 损失 函数 ， 并 将 强化 学 习 问题 变 
成 一 个 优化 问题 ? 


7.2.3 Softmax tk HS Xe Fed K pk BM 


我 们 先 设 计 一 个 前 向 神经 网 络 策略 ， 如 图 7.9 所 示 。 


___ exp (fo) 
rf. ba exp (fo) + exp (fi) 
"ORO em 由 
exp (fo) +exp(fi) 

layer2 softmax 


input 


图 7.9 Softmax te Hg 
该 神经 网 络 Softmax 宋 略 的 输入 层 是 小 车 倒立 摊 的 状态 ， 维 数 为 4; 
最 后 一 层 是 softmax 层 ， 维 数 为 2 (softmax 季 党 作为 多 分 类 器 的 最 后 一 
FR) 。 
我 们 需要 了 解 的 一 个 最 基本 的 概念 是 何 为 softmax 层 ? 
如 图 7.9 所 示 ， 设 第 二 层 〈layer2) 的 输出 为 zZ， 那 么 Softmax 层 是 指 
对 z 作 用 一 个 softmax 函 数 ， 即 


ro) =- 一 forj=1, ware: 4 


C 
k=1 


xf F Softmax Rig, TERR REF ve A BALE A 





Tə (als) 三 一 
N ef 
如 图 7.9 所 示 ， te 对 应 layer2 的 输出 。e” ”表示 动作 a 所 对 应 的 
softmax 输 出 。 上 面 的 式 子 表示 智能 体 在 状态 为 sg 时 采用 动作 a 的 概率 ， 是 
关于 4 的 函数 ， 可 直接 对 其 求 对 数 ， 然 后 求 导 后 代入 策略 梯度 公式 ， 逢 
用 策略 梯度 的 理论 更 新 参数 。 
AE, RITE AK A T, AWF episode, RITE HEE 


Hae BE a Se PB L = — Bp an, logs (als) Q” (s, a) ] 
的 一 步 更 新 。 
MIRR eR BAY Ay 


L=~ Bop wn llosre(ais)Q*(s,0)] =- | pp, 1080,0" (0) 


sesh | pa, logan FAS SOIR o 


TEE DIT EA, Pu, 由 未 更 新 的 参数 策略 网 络 采样 ，ljogq， 则 将 
状态 直接 代入 ， 是 参数 0 的 一 个 函数 。 比 如 ， 当 前 动作 由 采样 网 络 
To (s) 产生 为 a=1， 则 


exp (fo) exp (fi) 
exp (fo) + exp (fi) exp (fo) + exp (fi) 


exp (fi) 
exp (fo) + exp (fi) 
这 是 从 信息 论 交 文 燃 的 角度 米 理 解 softmax 层 ， 理 论 部 分 先 介 绍 这 
些 ， 接 下 来 我 们 看 看 如 何 将 理论 变 成 代码 。 
刚才 己 经 将 全 上 略 柳 度 方法 转化 为 一 个 分 类 问题 的 训练 过 程 ， 其 中 损 
RAZON 


p=[0,1, «=| 


Prs log qn, — log 


L=- E, „ ,., [logm(als)Q”(s,a)] =- J Pr, 108, T, 


那么 该 网 络 的 输入 数据 是 什么 呢 ? 它 的 输入 数据 有 以 下 三 项 。 
第 一 项 ， 小 盏 倒立 摆 的 状态 s; 

第 二 项 ， 作 用 在 小 车 上 的 动作 ai 

此 三 项 ， 每 个 动作 对 应 的 宗 积 回报 Vv。 


下 面 我 们 一 一 介绍 如 何 获 得 这 些 输入 。 

第 一 项 ， 小 车 倒立 摆 的 状态 s 是 与 环境 交互 得 到 的 ;第 二 项 ， 作 用 
在 小 车 上 的 动作 a 是 由 采样 网 络 得 到 的 ， 在 训练 过 程 中 充当 标签 的 作 
用 ;， 第 三 项 ， 每 个 动作 对 应 的 素 积 回报 是 由 该 动作 后 的 回报 进行 累积 并 
经 归 一 化 处 理 得 到 的 。 

因此 ， 该 代码 可 以 分 为 儿 个 关键 的 函数 : 策略 神经 网 络 的 构建 ， 动 
作 选择 函 数 、 损 失 函 数 的 构建 ， 和 累积 回报 函数 v 的 处 理 。 下 面 我 们 一 一 


介绍 。 


7.2.4 基于 TensorFlow 的 策略 梯度 算法 实现 


1. 宋 略 神 经 网 络 的 构建 

构建 一 个 神经 网 络 ， 最 简 蛙 的 方法 束 古 利用 现 有 的 深度 学 习 软 件 ， 
从 兼容 性 和 通用 性 考虑 ， 我 们 选择 TensorFlow， 待 构建 的 策略 网 络 结构 
如 图 7.10 所 示 。 


O exp(fo) _ 
L o} | í fo N exp (fo) + exp (fi) 
P | F? exp (fi) 


A \ -exp(fo) + exp (fi) 
= layer2  softmax 
input 


{ j 


layer | 


图 7.10 策略 神经 网 络 
该 神经 网 络 是 最 简单 的 前 问 神 经 网 络 ， 输 入 层 为 状态 s， 共 4 个 神经 
元 ， 第 一 个 隐藏 层 包 括 10 个 神经 元 ， 激 活 函 数 为 ReLU; 输出 是 动作 的 
概率 ， 动 作 有 2 个 ， 因 此 第 二 层 为 2 个 神经 元 ， 没 有 诉 活 函数 ; 最 后 一 层 
为 softmax 层 。 
将 这 话 翻 译 成 TensorFlow 语 言 的 表述 如 下 。 


def build net (self) : 
With ti.mame scope |'input')s 


# 创 建 占 位 符 作 为 输入 

HBL TE Ons = tf£.placeholder (tf.float32, [None, 
self.n features], name="observations") 

self tf acts = tf.placeholder(tr.int3z, (None, l» 
name="actions num") 

SALITE VE = CUL.placeiolder(ti .tligatsz, ([Nene, |, 
name="actions value") 

i ja 


layer = tf.layers.dense ( 
inputs=selt.tf obs, 
units=10, 
activation=tf.nn.tanh, 
kernel initializer=tf.random normal initializer (mean=0, 


stddev=0.3), 
bias initializer=[f constant iInitializer(0.1), 
name='fcl', 
HBJ 


all act = Ef.layers, dense | 
inputs=layer, 
bnLts—sell.f actions, 
activation=None, 
kernel initializer=tf.random normal initializer (mean=0, 
stddev=0.3), 
Clas Ti Ll LOE CONSTANCE LN Ly 
name='fc2' 
# 利 用 softmax 函数 得 到 每 个 动作 的 概率 


RE act pron = TL. in. SOLCHE (all Act, MNEs tagt prop”) 


全 部 代码 在 github Chttps: //github.com/gxnk/reinforcement-learning- 
code) 的 policynet.py 文 件 中 。 


2 .动作 选择 函数 

动作 选择 函数 是 根据 采样 网 络 生成 概率 分 布 ， 利 用 该 概率 分 布 去 采 
样 动作 ， 具 体 代码 如 下 。 

4 定义 如 何 选择 行为 ， 即 状态 为 时 的 行为 采样 ， 根 据 当前 的 行为 概率 分 布 采 入 


def choose action(self, observation) 3 


prob weights= Se .Bona .T(E LL act pron, 
feed dict={self.tfi De:6bservationlnp. newaxis,s] }) 

# 按 照 给 定 的 概率 采样 

action = np.random.choice (range (prob weights.shape[1]), 


p=prob weights.ravel () ) 
return action 


FE pk] 2np.random.choice ve 7% A WEE 7} 4h p=prob_weights.ravel © 
TAFE HY PRI BBL o 
eles 
里 论 部 分 我 们 已 说 明 损 失 函 数 为 


L=- Bop wn llogre(ais)Q*(s,0)] =~ | Pp, 1080,0" (0) 


BU AC SC MHEG CA RFR EIR Z DA Re AIS BoP o 
H EXTIR KZ 
with tf.name scope('loss'): 
neg log prob = 


tf.nn.sparse softmax cross entropy with logits(logits=all act,la 
bels=self.tf acts) 


loss = tf.reduce mean(neg log prob*self.tf vt) 


4. 素 积 回报 函数 v 的 处 理 


def discount and norm rewards (self) : 

# 折 扣 回报 和 

discounted 6p Fs =np.geros like(gelr.en re) 

running add = 0 

fot £ in reversed(range(), len(self.ep rs))): 
running add = running add ™ selft.gamma + self.ep rs[t] 
discounted ep rs(t] = running add 

# 归 一 化 

discounted ep rs-= np-mean(discounted ep rs) 

discounted ep rs /= np.std(discounted ep rs) 

return discounted. ep rs 


A S REE DEREK GAARA, RER EIR AX, 
习 的 过 程 束 简单 了 ， 只 需要 调用 下 面 的 语句 即 可 。 
# 定 义 训练 , 更 新 参数 
with tf.name scope('train'): 
selft.train op = 
tf.train.AdamOptimizer (self.lr).minimiıze (loss) 
该 训练 过 程 为 来 用 目 适 应 动量 的 优化 方法 。 和 学 习 优 化 的 过 程 如 下 。 
# 学 习 ， 以 便 更 新 策略 网 络 参 数 ， 一 个 episode 之 后 学 一 回 
deft learn (self): 
# 计 算 一 个 episode 的 折扣 回报 
discounted ep rs norm = self. discount and norm rewards () 
# 调 用 训练 函数 更 新 参数 
sell. Sess. run(selt.train op, Teed dict; 
SSL .tl O68! fp.Vetack (66). .ER O08), 
Sselit.ti acts: np.array (self .ep as), 
selt.tf vi: discounted ep rs norm, 
}) 
HET episode 数据 
selt .ep obs, self.ep as, seli.ep ©S = []; [1 Ù 
return discounted ep rs norm 


7.2.5 Fis FH MS Hibs PE LIZ AID ESFE [jel 
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问题 的 基本 框架 如 下 。 

D 创建 一 个 环境 ; 

Qe A: 通过 与 环境 交互 ， 学 习 更 新 晴 略 网 络 参 数 ; 

由 利用 学 到 的 案 略 网 络 测试 小 车 倒立 摆 系 统 。 

7.3 习题 

1. 采 用 直接 策略 搜索 方法 的 好 处 。 

2. 策 略 棉 度 理论 中 有 哪些 减 小 稼 略 梯度 误差 的 方法 ? 

3. 运 用 宵 略 樟 度 理论 解决 打 乒 乓 球 洲 戏 。 

4. 答 试 使 用 OpenAI 的 其 他 软件 ， 如 baseline，roboschool 等 。 
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本 章 我 们 介绍 TRPO。TRPO 是 英文 单词 Trust Region Policy 
Optimization) fa, AYER POC ES aR TL”. SIE IA eA 
的 博士 生 John Schulman 提 出 ， 他 已 于 2016 年 博士 毕业 。Schulman 的 导师 
是 强化 学 习 领 域 的 大 神 Pieter Abbeel，Abbeel 是 们 克利 的 副教授 ， 也 是 
OpenAI 的 研究 科学 家 ， 是 机 玫 人 强化 学 习 领 域 最 有 影响 力 的 人 之 一 。 

奶 根 调 源 的 话 ，Abbeel 毕 业 于 斯 坦 福 大 和 学， 导师 是 Andrew Ng (R 
A) 。 相 信 搞 机 器 学 习 的 人 应 该 都 昕 谨 过 吴 大 神 或 者 昕 过 他 的 课 吧 。 
有 意思 的 是 ， 匡 恩 达 博士 毕业 于 伯 元 利 大 学 ， 之 后 在 斯 坦 福 任教 ， 这 和 和 
Abbeel 的 经 历 正 好 相反 ， 由 此 看 来 美国 名 校 间 人 才 互 换 的 情况 还 是 插 普 
WH). Abbeel EAA R SR] CAGES A) 。 有 再 进一步 退 
MVR, se BOAR SDAA SEA AYMichael I.Jordan， 一 位 将 统计 学 和 机 
aa RG ERAN AIA AY... 

wA SAA An S, SPR, WHA RAE SMARHYE 
题 有 关 。 从 师承 关系 上 可 以 看 出 ， 这 个 学 派 传承 于 统计 学 大 师 Michael 
I.Jordan， 所 以 他 们 最 有 力 的 杀手 铜 是 统计 学 习 。 从 宏观 音义 上 看 ， 
TRPO 将 统计 玩 到 了 一 个 新 高 度 。 在 TRPO 出 来 之 前 ， 大 部 分 强化 学 习 算 
法 很 难保 证 单调 收敛 ， 而 TRPO 却 给 出 了 一 个 蛙 调 的 案 略 改善 方法 。 所 
以 ， 不 党 你 从 事 什 么 行业 ， 如 果 想 用 强化 学 习 解 决 问 题 ，TRPO 都 是 一 
个 不 错 的 选择 。 所 以 本 章 确 实 很 关键 。 

如 图 8.1 所 示 为 下 接 寅 略 搜 索 方 法 的 分 类 ， 根 据 模 型 是 否 已 知 ， 束 
略 搜 索 方 法 分 为 无 模型 的 案 略 搜索 方法 和 基于 模型 的 策略 搜索 方法 。 在 
无 模型 的 荣 略 搜索 方法 中 ， 根 据 介 略 是 含 随 机 可 以 分 为 随机 集 略 搜索 方 
法 和 确定 性 案 略 搜索 方法 。 在 随机 案 略 搜索 方法 中 最 先 发 展 起 来 的 是 束 
MAP REA AIA. FAM, TERRE A Eee AY [Al EAR ae AX fa) al, 
FRAK, TREBIRA DAA: BOAR, WORE RS. AS mea 
Ke, See FE HE Se Sd YR ER VEE TB A PY R 
略 搜 索 方 法 。 虽 然 这 些 方法 能 在 一 定 程度 上 避免 直接 利用 步 长 ， 但 这 些 
方法 也 丢 反 了 梯度 方法 很 容易 用 来 处 理 大 规模 问题 的 优势 。TRPO 没 有 
选择 回避 更 新 步 长 的 问题 ， 而 是 正面 解决 这 个 问题 。 本 章 会 循序 介绍 


TRPO 方 法 。 


策略 搜索 万 法 






无 模型 的 策略 搜索 方法 


随机 策略 确定 性 策略 
随机 策略 引导 策略 搜索 (GPS ): 
传统 控制 器 + 监督 学 习 


基于 模型 的 策略 搜索 方法 


单调 步 长 ， 
方差 约 简 

图 8.1 策略 搜索 方法 分 类 

8.1 理论 基础 


第 7 章 简 要 介绍 了 策略 梯度 的 方法 ， 相 当 于 入 门 的 介绍 ， 在 策略 梯 
度 方法 中 还 有 很 多 有 意思 的 课题 ， 比 如 相 容 函数 法 、 自 然 梯度 法 ， 等 
等 。 但 Shulman 在 博士 论文 中 已 证 明 ， 这 些 方法 其 实 都 是 TRPO 弱 化 的 特 
例 ， 在 这 里 重 提 是 为 了 强调 TRPO 的 强大 [13] 。 

根据 策略 梯度 方法 ， 参 数 更 新 方程 式 为 


bnew = oa + aVod ( S.l ) 


MS RE IA TE hE BR, SIR NIN, EAA 
Fre DAN SRM ze — NETR, SAHRA BON I DR RE 
IN, FR INS BA, AREA DSS Me, Bait. AT 
以 ， 合 适 的 步 长 对 于 强化 学 习 非 党 关键 。 

什么 才 是 合适 的 步 长 ? 

合适 的 步 长 是 指 当 沫 略 更 新 后 ， 回 报国 数 的 值 不 能 更 和 过。 那么 如 何 
选择 步 长 ?或 者 说 ， 如 何 找到 新 的 策略 使 新 的 回报 函数 的 值 单调 增长 ， 
或 单调 不 减 ? 这 就 是 TRPO 要 解决 的 问题 。 

FAT 表示 一 组 状态 -行为 序列 so,&o，…SPVE , EE Y IIR EA 


BN 
nD = By] 7's) 


这 里 ， 我 们 用 和 元 表示 策略 。 

上 文 已 提 及 ，TRPO 是 要 找到 新 的 案 略 使 回报 函数 蛙 调 不 减 。 一 个 
目 然 的 想法 是 能 人 奋 将 新 的 琳 略 所 对 应 的 回报 函数 分 解 成 旧 的 案 略 所 对 应 
的 回报 函数 加 其 他 项 。 这 样 ， 只 要 新 的 菏 略 所 对 应 的 其 他 项 大 于 等 于 
零 ， 那 么 新 的 策略 束 能 你 证 回报 函数 单调 不 减 。 这 样 的 等 式 其 实 是 存在 
的 ， 它 是 2002 年 由 Sham Kakade 提 出 来 的 HL 。TRPO 的 起 点 便 是 这 样 一 
个 等 式 : 


n(it) =n(m) + Baca] >) yA, (sa) (8.2) 
这 里 我 们 用 7 表示 旧 的 策略 ， 用 7 表示 新 的 策略 。 其 中 


A, (s, a) = Qr (s, a) — V; (s) = FE ptr Ir (s) T” (s ’) a ht (s) | 


是 优势 函数 。 

此 处 我 们 再 花 点 笔墨 介绍 下 Qx(s,4) 一 Vr(s) 为 什么 会 被 称 为 优势 
函数 ， 这 个 优势 到 底 是 指 和 谁 相 比 的 优势 ? 我 们 以 大 家 熟悉 的 树 状 图 来 
前 述 ， 如 图 8.2 所 示 。 

V.(s) =2(a,|s)Q,(s,a,) + T (a|s)Q,(8, a2) 


A(s,a,) =Q,(s,a,) — V,(s) 





Q),.(8, a1) Q,,($, a2) 


图 8.2 优势 函数 示意 图 


图 8.2 中 的 值 函 数 Y(s) 可 以 理解 为 在 该 状态 s 下 所 有 可 能 动作 所 对 
应 的 动作 值 函数 乘 以 采取 该 动作 的 概率 的 和 。 通 俗 的 说 法 是 ， 值 函数 
V(s) 是 该 状态 下 所 有 动作 值 函数 关于 动作 概率 的 平均 值 。 而 动作 值 函 
HQ(s,a) 是 单个 动作 所 对 应 的 值 函 数 ，Q@; (s,a) — V, (s) 能 评价 当前 
动作 值 函 数 相 对 于 平均 值 的 大 小 。 所 以 ， 这 里 的 优势 指 的 是 动作 值 函数 
相 比 于 当前 状态 的 值 函数 的 优势 。 如 果 优势 函数 大 于 零 ， 则 说 明 该 动作 
比 平 均 动作 好 ， 如 果 优势 函数 小 于 堆 ， 则 说 明 当 前 动作 不 如 平均 动作 
好 。 

回 到 正题 上 来 ， 我 们 下 面 给 出 公式 (8.2) 的 证 明 。 

证 明 


Bini bay ‘A, E a) 


Ew] 2 t(r(s) +V" (8,41) -v"(s)) 
=E “| ov (r(s,)) +D OV (uu) - V” D) 


= Ban > y (r (s+) ) | 


= (7) — (7) 
此 处 详细 讲解 如 下 。 
第 一 个 等 号 是 代入 优势 函数 的 定义 ; 
第 二 个 等 号 是 把 第 一 项 和 后 两 项 分 开 与 ; 
第 三 个 等 号 是 将 第 二 项 展开 ， 相 消 ， 只 剩 - 了 (so) ， 而 80~7 等 价 
于 so~T  ， 因 为 两 个 策略 都 从 同一 个 初始 状态 开始 ， 而 了 7 (so) 三 77(7r) 


为 了 在 等 式 〈8.2) 中 出 现 束 上 略 项 ， 我 们 需要 对 公式 (8.2) 进一步 
加 工 转 化 。 如 图 8.3 所 示 ， 我 们 对 新 旧 策 略 回报 差 进行 转化 。 





图 8.3 TRPO 中 最 重要 的 等 式 


RA eB BL HES BY DAES aR TED 


nt) =n) 十 》 》 P(s,=s|t) > T(als)y'A,(s,a) (8.3) 


其 中 已 (s = sl) # (als) 为 (s,a) 的 联合 概率 ， 
>》 Fals)7'A. (8,0) 为 求 对 动作 a 的 边际 分 布 ， 也 就 是 说 在 状态 s 
下 对 整个 动作 空间 求 和 ， 之 ,已 (s 一 SE) 为 求 对 状态 s 的 边际 分 布 ， 妈 


OO 


对 整个 状态 空间 求 和 ; D >] Phe = s|) 求 整个 时 间 序 列 的 和 。 


t=0 
我 们 定义 px (8) = P(s)=s) + yP(s,=s) + ~7*P(s.=s) +... 
则 


nã) =n) + > pi(s) > i(als) A" (s,a) (8.4) 


如 图 8.4 所 示 。 


第 ! 步 出 现 s 的 概率 ”状态 为 s 时 处 动作 进 
Ne 行 


加 和 





=n(m) 十 > p(s) X ,i(als) A™(s,a) 


图 8.4 代价 函数 推导 
ERR: 这 时 状态 s 的 分 布 由 新 的 束 略 ”产生 ， 对 新 的 末 略 严 草 依 


TRPO 算 法 在 推导 过 程 中 运用 了 四 个 技巧 ， 我 们 分 别 曾 述 。 
(1) TRPO 的 第 一 个 技巧 。 

我 们 引入 TRPO 的 第 一 个 技巧 处 理 状态 分 布 。 我 们 忽略 状态 分 布 的 
变化 ， 依 然 采 用 旧 和 策略 所 对 应 的 状态 分 布 。 这 是 对 原 代 价 函 数 的 第 一 次 
近似 。 其 实 ， 当 新 旧 参 数 很 接近 时 ， 我 们 用 旧 的 状态 分 布 代 蔡 新 的 状态 
分 布 也 是 合理 的 。 这 时 ， 原 来 的 代价 函数 变 成 


L, =n) + X p(s) X ,it(als) A (s,a) (8.5) 


RIJE (8.5) REE URED, CIN REE H N HR T 
产生 的 ， 可 是 新 的 策略 元 是 带 参数 4 的 ， 而 该 参数 是 未 知 的 ， 因 此 无 法 
用 来 产生 动作 。 这 时 ， 我 们 引入 TRPO 的 第 二 个 技巧 。 

(2) TRPO 第 二 个 技巧 。 
TRPO 的 第 二 个 技巧 是 利用 重要 性 采样 处 理 动 作 分 布 。 


>》 To ($n) Ao,,(Sn,@) = Fag eae) 4o (Sns a) | 





我 们 再 利用 


E, p RY aO], Heg(als,) =r, (als) » BRE 





l—¥ 
BRIEN 
Le) =m) + Brin gan oa Aa (86) 


fe ROR, RIE PEREIRA (8.6) 式 和 原 回 报 函数 (8.4) 
式 之 间 的 关系。 
通过 比较 发 现 ，(8.4) 式 和 “8.6) 式 的 唯一 区 别 是 状态 分 布 的 不 
Flo HLT) nT) 都 看 成 是 策略 元 的 函数 ， 则 Lr (mt), na) 在 策略 
Nosu 处 一 阶 近似 ， 即 
Le, (To) =n (Toa) 
Vo Lr, (16) |o=0,, = Von (To) |o=0n. 


可 以 用 图 8.5 来 表示 。 


(8.7) 


n(07 /Le0)-cC:KL \ LO) 


图 8.5 EI} eA aS EAR El R PA BOS is A 
在 do 附近， 能 改善 L 的 策略 也 能 改善 原 回报 函数 。 问 题 是 步 长 多 
KYE ? 
BAT FR S| ABP AY NL: 


nT) SL, (T) — CDRE (1,7) 
2EY (8.8 ) 
了 一 
下 面 我 们 来 证 明 (8.8) 不 等 式 。 
从 公式 (8.2) 出 有 发， 为 了 证 明 的 方便 ， 我 们 重新 写 一 过 回报 函数 
和 稚 代 回报 函数 。 


where C = 


回报 函数 : nT) =n) + EL 5 > y'A™ 加 


蔡 代 回报 曙 数 : L(t) =n mr) + Er > yt At 加 

两 者 的 差别 在 轨迹 分 布 上 ， 回 报 函 数 是 关于 新 策略 ”的 期 望 ， 蔡 代 
回报 函数 是 关于 旧 策 略 7 的 期 望 。 

首先 ， 我 们 定义 一 下 策略 对 。(7,) 是 一 个 a 耦合 的 策略 对 ， 如 果 
它 定 义 了 一 个 联合 分 布 (a,&)ls 。”， 对 所 有 的 状态 s MME 
Pa#a|s)<a 【〔( 即 在 每 个 状态 ，(7,) 给 我 们 一 对 动作 ， 这 对 动作 
不 同 的 概率 系 a ) 。 考 虑 用 新 策略 元 产生 一 条 轨迹 ， 比 如 在 每 个 时 间 
步 i， 我 们 采样 (Qi,0i)|s: ， 让 nt 表示 当 i<t 时 ，a; +, 的 次 数 。 


B,- A™(s)| = P(m,=0)E,-rin-0| A™(s) | + P(n: > 0) B,,-nin>0| A" (st) | 
对 于 前 t 个 状态 ， 动作 完全 相同 的 概率 为 P(ni 二 0) = (1—-a)’ l 
完全 相同 时 为 


f EE 2b an (s,) | is | Am (s,) | 
因此 等 式 变 为 


B,2|A°*(s) | = (1a) Bn-ol A°*(s) | + (1— (1—0) °) By in.>0| A™ (83) | 
两 边 同 时 减 去 
及 | A"*(s,) | = (1—a)'B, nin -0| A" (s,) | + (1— (1—0) ') By -nin.>0| A"*(s) | 
得 到 
E, z| A? (s)| — B,-.| A"*(s,) | = (1— (1—a)") 
(- Eni. >0| A” (s,) | + Bo sm>o | 47 (s,) | ) 


E,.x[4"*(s)] —B,..[A"*(s)]]<@-G-a)')(ete) (88a) 


A™*(s)] 。 





其 中 ， £= max 





有 了 这 个 结论 ， 我 们 束 可 以 证 明 回 报 函 数 与 苦 代 回报 函数 之 间 的 差 
AWA 


nt) —L, (7) -Bi Za) Ba] yE) 


=) (Bp | A™*(s,) | — E,.,| A**(s,) |) 


将 (8.8a) WIRA (8.8b) 云 得 到 


(8.8b ) 


E, 4[A™*(s)| — E,- [87 63] 





Ini) 一 到 (和 | 入》 
< >》 -2e - (1 一 (1 一 Q) 


=2e )_(y'—7'G—a)') 
_ 2EYQ 
Ly) 1-3 —@)) 
(8.8) 不 等 陈 证 明 结 束 。 
在 (8.8) RP, Dat (7,7) 是 两 个 分 布 的 KL 散 度 ， 我 们 看 看 
(8.8) 式 给 了 我 们 什么 局 示 。 
首先 ， 该 不 等 式 定义 了 7(7) 的 下 界 ， 我 们 定义 该 下 界 为 
M; (r) = L, (r) — CD (mi, T) 。 
接 下 来 我 们 利用 这 个 下 界 证 明 策略 的 单调 性 。 
证 明 
n(Ti+1) = M: (7:41) (mi) = Mir) 
M9 (mi+1) — (mi) > M: Ti+) — M (i) 
如 果 新 的 策略 Ti+ 能 使 MM; 最 大 ， 那 么 有 不 等 式 
M: (Tm) —M(a;) 20 , 则 n(mi+1) — nn) Z0 , xM EM: 最 大 
HD alt TS HSE ee EA] E a RER o AL UIER E We ? 
该 问题 可 形式 化 为 
maximize | Le, (0) — CD&P* (8.1459) | 


SRA AE TALC, MERRER RAR), ACI AT FEN 


es To (als) 
adie anni E S~Po ar-To ， ER Ao.. (s ) a) | 


subject to DRE (80,0) <6 


(8.9 ) 


需要 注意 的 是 ， 因 为 有 无 穷 多 的 状态 ， 因 此 约束 条 件 DRL* (Gora, 9) 
BEKE, Wye A AF 
(3) TRPO 第 三 个 技巧 
在 约束 条 件 中 ， 利 用 平均 KL 散 度 代 蔡 最 大 KL 散 度 ， 即 
subject to DR” (0%4,0) <6 
(4) TRPO 第 四 个 技巧 


3S™ pa, -F SNT 6, 
最 终 TRPO 问 题 化 简 为 


maximize E.n a ZR a, (s,a) 
9 ‘aaa! at (als) ™ 
subject to Esm [Dkr (re CIT Cs) ) | <6 
(8.10) 式 仍 然 很 难 写 成 代码 的 形式 。 一 种 更 实际 的 方法 是 对 
TRPOHM] H ERROTA, ZIRE EET LME. 
TRPO 的 问题 进一步 简化 为 市 不 等 陈 约 束 的 标准 优化 问题 ; 


minimize 一 [Vo Lo (0 ) | 0 一 0. (0 Ooa) | 


(8.10) 


(8.11) 
subject to 5 (Oo14 一 0) “A(O.ia) (Oaa 一 0) = 6 


To (als) 
Ng (als ) 


T 中 Lo., (0) | 0 = 0 — Bsn, om | Ap, (s, a) ’ ZAJ 束 条 件 的 


Ay fal EE OM F -o 


Bc, MAK A BEC IB) KLASSE H EC 


Diu (fila) = | fo8 fdr= E, plog) — Brologg(®) 





其 次 ， 将 Dr (To (18) ||7 Gls) ) 利用 泰勒 进行 二 阶 展开 : 


Dir, (Ta, (-|8) || 9 (|s)) ~ Ben log, — Ben, logy 
=- Lara Ey |V logn, | Ae 
A= E [V logre] 4 Fisher 和 矩阵。 
由 此 得 到 (8.11) sh, Tepe OC E eZ UME - 
FE, RAAHE FTA A ee OC ET so ATT IR AY VK 
TILA FANER o 
第 一 步 ， 计 算 一 个 搜索 方 癌 。 
第 二 步 ， 在 搜索 方 岗 上 运用 一 个 线性 搜索 方法 确定 更 新 步 长 。 
下 面 我 们 按 这 个 方法 来 操作 。 
(1) 第 一 步 ， 计 算 一 个 搜索 方 癌 。 


首 匈 ， 我 们 利用 拉 格 明日 滋 子 将 约束 条 件 引 入 目标 函数 中 ， 构 造 拉 
格 明日 函数 为 


1 
L=- [Vo Lo, (O)\o=0,, ` (0 — Ooa) | TA E (0 _ Asia) T A(Oo1a) (0 Asia) B 5 
A|FAKKTAE, RIJE L 对 0 一 boa 的 偏 导 数 等 于 零 ， 则 有 
-Vo Lo (9) |o=0,, HAA (Osa) (8 — Oia) = 0 (8.12 ) 
HTA 是 正 实 数 ， 令 d = AO — Ooa) , Wid 与 最 优 更 新 量 4 — Qua 


UIA). Bld 为 最 优 更 新 量 的 搜索 方 问 。 

该 搜索 方 同 回 量 满足 (8.12)〉 式 ， 即 

A (Oxia) d = Vo Lo, (9) |o= 64. (8.13 ) 

(8.13) RES PARTE A REZ, JI ARK, H AA HRD BE 
IIT ARROKA B8.6 Fl AS IEE E HI IT IAR HERTE TT FEH HIAR 
位。 
Fl FASC Es RTS EI AX 一 5 的 解 方法 : ， 
构造 目标 函数 jz) = "Az 一 bz， 则 z 是 目标 函数 的 最 小 值 。. 


Step1: 给 定 初试 迭代 点 7”， 令 k= 二 1: 
Step2: 计 算 梯 度 g = 二 Vf(z”) =Ac”—b, Allg,|| =0 则 停止 计算 ， 并 令 z =r", SUH 
下 一 步 ， 
Step3 : 构造 搜索 方向 ， 首 先 计 算 步 长 B,-_1 = 
构造 搜索 方 同 为 : dk =- gr t+ Be-1dk-1+ 
step4: 计算 搜索 步 长 一 oS ey. ERRA = 2 +d. 
Step5 : 若 k 二 n， 则 停止 计算 。 得 到 zx =r", GMNSk=k+1, BDRStep2. 
图 8.6 共 恩 梯度 的 方法 求解 线性 方程 组 

企图 8.6 中 的 线性 方程 组 中 ， 

b=VoLe,,(Mlo-0,,, A= Eo [V logro], 根据 图 8.6 中 的 伪 代 码 ， 我 


们 能 计算 得 到 搜索 方向 d 。 

(2) 第 二 步 ， 有 了 搜索 方向 4 ， 我 们 需要 确定 在 该 搜索 方向 上 的 
更 新 步 长 。 

将 第 一 步 求 得 的 搜索 方向 d 乘 以 步 长 ， 代 入 约束 方程 得 到 


(dw—») ” Ag, 


(aT Ad®» ， #k=1,8,-,=0. » 


sx 5 (Bd")" A(Bd") z ZOUT Ad’ 


Pate 


将 B ”代入 目标 函数 Lo, (0) — X| DeO <6}, HEH 
X| Dix (Baas) < 8| 表示 当 Di (10,0) <6 时 
%|PDia(guug) S| =0 , 4 Dir (Oa 0) >6 MX | Dri Ora, 9) 
<6] 为 无 穷 大 。 

如 果 目 标 函 数值 变 大 ， 则 收缩 步 长 8 ， 直 到 目标 函数 得 到 改善 。 


最 后 更 新 参数 为 ie = Ooa sis bd 
8.2 TRPO 中 的 数学 知识 
8.2.1 信息 论 

8.1 节 我 们 大 量 使 用 了 KL 散 度 的 运动 ， 那 么 KL 散 度 是 什么 ? 

KL 散 度 是 信息 论 中 的 概念 。 所 以 ， 在 回答 KL RUE ZA, FRI 
了 解 下 信息 论 的 一 些 基 本 概念 。 

aS eee Ss Aa eo aie Se fe Sa. a 

系统 等 问题 的 应 用 数学 学 科 ， 由 香农 提出 。 香农 1948 年 10 月 在 《贝尔 系 


ROM FAK) 上 友 表 的 论文 A Mathematical Theory of Communication 揭 
开 了 信息 论 研究 的 序 医 。 在 这 篇 偶 基 性 的 论文 中 ， 香 农 给 出 了 信息 精 的 


定义 : 
H(X) =- 2, pilogp; 
对 于 连续 系统 ， 香 农 粮 定义 为 
H (x) = E,-p{I(«)] =- E,-p[logP (2) ] 
WA, MARIA LEA? 


BARI AN TY DES I >. ERIK, (EK. 
而 随机 事件 的 信息 量 与 随机 变量 的 确定 性 有 关 ， 事 件 的 不 确定 性 越 大 包 
含 的 信息 量 也 越 大 。 就 像 我 们 要 弄 清楚 一 件 不 确定 的 事情 时 ， 需 要 了 解 
大 量 的 信息 ; 而 对 于 确定 的 事情 ， 我 们 几乎 不 需要 了 解 任何 其 他 的 信 
晨 。 比 如 太阳 从 东边 升 起 是 一 件 很 确定 的 事件 ， 没 什么 信息 量 ;， 如 果 太 
阳 今 天 没有 从 东方 升 起 ， 这 件 事 情 束 包含 很 多 可 能 性 一 一 或 症 阴 天 ， 或 
是 下 雨 ， 或 是 其 他 原因 .……. 信 息 量 就 很 大 。 

WEAR BI RSE KE SC, EAT Fe a SPE TERR, TW A 
结论 。 以 二 值 分 布 为 例 ， 假 设 随 机 变量 只 取 0 或 者 1， 设 取 1 的 概率 为 ， 
MROK- FMA AE CUE ATS Bl 

H =- plog(p) — (1 — p)log — p) 

wR. 7R AAEE 分 布 而 变化 的 情形 。 当 D=0.3 时 ， 取 1 

和 取 0 的 概率 都 是 0.5， 所 以 取 哪 个 数 是 最 不 确定 的 ， 而 当 D =-0 Bat P =I 


时 ， 则 表示 确定 性 地 取 0 或 者 1， 为 确定 性 事件 ， 其 所 对 应 的 箭 为 0， 是 
最 小 的 。 这 讽 明 燃 可 以 衡量 事件 的 不 确定 性 ， 拥 有 最 大 不 确定 性 的 事件 
DLN A BK EN Hie 





0.7 


oo 
图 8.7 ERBEK A He 16 


AU Sie A AR A ES So FETE VED, XAH RKE E ni 
方案 个 一 定 完 类 时 ， 平 均 编码 的 长 度 。 不 完美 的 编码 用 Q 表 示 ， 则 平均 
编 色 长 度 为 


H(P,Q) =-EnnQ(2) =- J P(2)logQ(a) de (8.14) 

AURR FL HEC INLET HIREK LTE ICS REA ti 
是 PCzj ， 而 模型 概 案 分 布 为 0 (x) ， 只 有 模型 分 布 呈 真实 的 样本 分 布 
HE, SE SURE |. URUAR REKER. 

HLS BEER AEA EI EEA) ZIRA, EMT ETA 
慨 率 分 布 之 间 相 似 程度 的 量 为 KL 散 度 ， 定 又 如 下 。 
pa(Plg) =B.r|log | = | P(2)logP (2) de — J P(2)logQ(a)de (8.15) 


KL 散 度 的 一 个 重要 性 质 是 非 负 性 ， 而 且 ， 当 且 仅 当 两 个 概率 分 布 
处 处 相等 时 ， 取 到 零 。 因 此 ，KL ” 散 度 常用 来 衡量 两 个 分 布 之 间 的 距 
离 。 但 KL 散 度 与 一 般 距 离 不 同 ， 它 一 般 不 具有 对 称 性 ， 即 
Dk (P||Q) # Dr: (Q\|P) 。 


KLAN 52 SABINA, Mae CSUR THE A SKA 
如 下 。 


H(P,Q) =- | Pologgtau 


=- | P(gQ tide+ | PsP (ois | P(=)IogP 2) de (8.16) 
= Dk (P,Q) + H (P) 


在 机 器 学 习 中 ， 样 本 的 真实 分 布 P(z) 保持 不 变 ， 因 此 最 优化 交叉 
WHP, Q) 等 价 于 最 优化 KL 散 度 。 
KL 艇 度 频 党 地 出 现在 强化 学 习 的 求解 过 程 中 ， 现 在 我 们 对 其 非 负 


性 进行 证 明 ， 即 对 任意 有 的 两 个 分 布 P 和 Q RWA 


>》 pilogg:— X ,pilogpi= 》 pilog [于 =- D (P||Q) <0 
i=1 i=1 i=1 s 


证 明 
根据 函数 的 性 质 lh(z) 三 xX 一 1 当 且 仅 当 Z 三 工时 ， 等 号 成 立 。 
所 以 


y pilog (a./p) < y (qi/pi—1) = 一列 = 5's = +s =0 
i=1 i=1 i=1 i=1 i=1 


8.2.2 优化 方法 


在 8.1 节 中 ，TRPO 最 终 转 化 为 优化 求解 问题 。 优 化 求解 是 机 器 学 习 
包括 监督 学 习 、 非 监督 学 习 和 强化 学 习 的 重要 组 成 部 分 。 有 了 数据 以 
后 ， 强 化 学 习 问 题 就 变 成 了 优化 问题 。 因 此 ， 了 解 和 熟练 掌握 常用 的 优 
化 算法 对 于 理解 和 运用 强化 学 习 算 法 至 关 重 要 。 

从 宏观 的 角度 分 类 ， 优 化 算法 包括 线性 规划 算法 、 非 线性 规划 算法 
和 现代 最 优化 算法 。 其 中 ， 线 性 规划 算法 最 基本 的 算法 是 单纯 形 法 ; JE 
线性 规划 算法 则 包括 无 约束 问题 的 最 优化 方法 ， 如 最 速 下 降 法 、 和 牛顿 
法 、 共 白 梯度 法 、 拟 牛顿 法 ， 以 及 约束 问题 的 最 优化 方法 ， 如 近似 规划 
法 、 可 行 方 同 法 、 罚 函数 的 内 点 和 外 点 法 、 乘 子 法 、 二 次 规划 法 等 ， 现 
代 最 优化 算法 包括 遗传 算法 、 模 拟 退 火 算 法 和 粒子 群 算法 等 。 

在 机 恬 学 习 的 优化 算法 中 ， 非 线性 规划 咎 法 应 用 最 普遍， 因此 本 节 
主要 介绍 非 线 性 规划 算法 中 的 无 约束 问题 和 约束 问题 的 优化 方法 。 在 无 
约束 问题 中 ， 我 们 介绍 最 速 下 降 法 、 牛 顿 法 、 共 思 梯 度 法 和 拟 牛 顿 法 。 
在 约束 问题 中 ， 我 们 重点 介绍 最 优 性 条 件 。 

1. 无 约束 问题 的 优化 方法 

我 们 首先 定义 无 约束 问题 的 数学 形式 。 无 约束 优化 问题 ， 束 是 求 使 
得 目标 函数 最 小 时 的 目 变 量 值 ， 可 数学 形 陈 化 为 


min f(x) (8.17) 


解决 无 约束 问题 的 最 基本 方法 是 最 速 下 降 法 。 

(1) 最 速 下 隆 法 

关于 最 速 下 降 法 ， 我 们 需要 和 章 情 两 个 问题 ， 一 是 什么 是 最 速 下 降 
法 ， 二 是 为 什么 最 速 下 降 法 能 够 求解 最 优 问 题 。 

首先， 回答 第 一 个 问题 ， 什 么 是 最 速 下 降 法 ? 

w(x) 在 Zr 附近 连续 可 微 ， 则 f(z) 在 你 处 下 降 最 快 的 方向 必 为 
PERERA, BY 


= Vin’ (8.18) 
最 速 下 降 法 在 Xx AA FEREN 
Tr+1 = T; + ad, (8.19 ) 


其 中 Q 为 更 新 步 长 ， 可 通过 精确 线 搜索 方法 得 到 。 方 程 (8.18) 和 
(8.19) 共同 构成 了 最 速 下 降 法 。 
我 们 再 看 第 二 个 问题 ， 为 什么 最 速 下 降 法 可 以 用 来 求解 最 优 问题 ? 
我 们 将 优化 函数 (7) 在 Zi+1 处 ， 用 泰勒 公式 展开 得 
f(a, + ad,) = f (zx) + ag; dy +o(a), oY 
其 中 gx = Vf (ax) ’ yu 
f (a, + ady) 一 了 + 0(a) =-a(gi Jr) <0 


因此 若 % 每 次 取 值 合适 ， 每 次 迭代 都 能 保证 优化 函数 a) 单调 递 


最 速 下 降 法 的 伪 代 人 码 如 下 。 
Step 0: 选取 初始 点 Zo E 民 ”， 容 许 误 差 0 仁 e <1, Sk: =1, 


Step 1: 计算 9 二 Vi). Filall<Se ， 退 出 ， 输 出 Te 作为 近似 


最 优 解 ; 

Step 2: 选取 搜索 方向 dx 三 一 94，; 

Step 3: 由 线 搜索 技术 确定 步 长 因子 ; 

Step 4: 令 Tk+t1: 王 Tx 二 Qxrdxr, ki =k+1, 转 Step1。 

(2) 牛顿 法 

在 最 速 下 降 法 中 ， 只 用 了 优化 函数 的 一 阶 导 数 信 息 ， 叶 致 算法 收敛 
速度 慢 ， 效 这 低 。 为 了 增 大 收 剑 速率， 牛顿 法 中 运用 了 优化 函数 的 二 阶 
导数 信息 。 设 优化 函数 帮 z) 的 二 阶 导数 为 C(z) =V f(z) ， 该 矩阵 称 
Hessian. RM RAAEN: 处 ， 利 用 泰勒 展开 其 前 三 项 ， 得 到 


f(z) =f (as) + of (@— 2) + 5(e— 2)", (@— 2) +0(A2”) 


其 中 9 二 VE). RIVA A, HTT 求 导 取 零 ， 得 


9, + G; (a — x) =0 ( 8.20 ) 
4G, 非 奇 异 ， 则 解 (8.20) 式 得 到 牛顿 法 的 迭代 公式 为 
Teyi =Le — GE Or (8.21 ) 


理论 上 ， 在 (8.21) 式 中 ， 每 次 迭代 都 需要 计算 Hessian 阵 的 逆 窍 阵 
Gi”， 首 和 矩阵 的 求解 跟 变 量 维 数 的 平方 成 正 。 因 此 ， 在 实际 的 算法 中 并 
不 这 样 做 ， 而 是 令 di 二 Gx gn ， 即 通过 解 方 程 

Gdy = gx ( 8.22 ) 

得 到 方程 的 解 dt ”来 避免 求 道 。 线 性 方程 (8.22) 式 的 求解 方法 很 
多 ，3.2.1 节 中 给 出 了 线性 方程 组 的 求解 方法 。 这 样 迭 代 式 子 (8.21) % 
为 

Wn =X + ay ( 8.23 ) 

(8.22) 1AF (8.23) 云 给 出 了 和 牛顿 法 求解 最 优 函 数 的 方程 式 。 


牛顿 法 的 伪 代 码 如 下 。 
Step 0: 给 定 误差 值 0 三 e 区 1 ， 初 始点 Xo E 民 ”， 令 ， 


近似 最 优 解 
Step 2: 计算 Gi 二 V f(z:) ， 并 求解 线性 方程 组 (8.22) 得 到 解 必 


Step 3: S Tr+1 =T Hdr, ki =k +1, Step 1. 

MRE PPRA, APSARA T RERA Je a Bi ea, AE 
共有 二 阶 收敛 性 ， 比 最 速 下 降 法 收敛 速度 快 。 

TENE FAERIE INIT, BOM CAE SR Ee ROD, A 
MU Ay FES BEA CoN. PAT, FES DN RIE BOISE AS AEB) aE 
什么 地 方 ， 因 此 一 般 不 会 直接 使 用 牛顿 方法 求解 ， 而 是 使 用 基于 牛顿 方 
法 的 改进 方法 ， 如 阻尼 牛顿 法 。 阻 尼 牛 顿 法 是 指 求 得 (8.22) 式 的 解 
后 ， 再 使 用 线性 搜索 的 方法 ， 得 到 一 个 适当 的 更 新 步 长 ， 傈 证 更 新 后 的 
Pk ZUE SESH 

牛顿 法 中 假设 了 优化 函数 的 Hessian 阵 G 三 V f (x) 在 每 个 迭代 点 Y# 
处 是 正定 的 ， 这 个 假设 在 实际 中 并 不 能 完全 成 立 ， 为 了 元 服 这 一 缺点 ， 
需要 修正 牛顿 法 。 修 正 的 方法 有 人 很多， 我 们 介绍 两 种 方法 。 

e 第 一 种 牛顿 法 修正 方法 : 牛顿 -最 速 下 降 寓 合算 法 

该 修正 方法 的 基本 想法 是 ， 当 Hessian 阵 正定 的 时 候 ， 采 用 牛顿 法 得 
到 的 搜索 方 癌 搜索 ， 当 Hessian 孟 非 正 定时 ， 采 用 负 李 度 的 方 同 作为 搜索 
方 同 。 访 算法 的 伪 代 人 码 如 下 。 

Step 0: 给 定 初 始点 To ES 民 ”， 终 止 误差 0 三 Ee 区 1, Sk: =0; 

Step 1: 计算 迭代 点 处 的 梯度 9: = Vile) ， 若 lgrl| Se 则 退出 ， 
得 出 2x 作为 近似 最 优 解 ; 

Step 2: 计算 Gi 二 V f(a.) ， 解 方程 组 (8.22) ， 若 (8.22) 有 解 


d, , Bl Hessian 阵 为 正定 阵 ， 并 且 解 满足 外 办 <0 ， 转 Step 3; 否则 ， 
利用 最 速 下 降 法 ， 即 搜索 方向 dx 二 一 9: ， 转 Step 3; 


Step 3: 由 线 搜索 技术 确定 步 长 因子 ; 
Step 4: A> Try = Tr Od, k: =k 十 1, LE Step 1. 


e 第 二 种 牛顿 修正 方法 : 加 入 阻尼 因子 

牛顿 修正 方法 解决 的 是 优化 函数 的 Hessian 阵 非 正 定 的 情况 ， 第 一 
种 方法 是 在 Hessian 星 非 正 定时 利用 最 速 下 降 法 ; 第 二 种 方法 的 基本 思想 
是 将 非 正 定 的 Hessian 阵 通过 加 入 阻尼 因子 变 成 正定 的 Hessian 阵 ， 即 选 
BB EERE A= Grr) Feel 正定 。 其 伪 代 码 与 第 一 种 方法 
类 似 ， 只 是 在 Step 2 有 上 所 不 同 。 

FLARE FERMI EB. Za, Uh NB A 
点 介绍 拟 牛 顿 法 。 

(3 ) MFMA 

拟 和 牛顿 法 是 为 了 解决 牛顿 法 中 的 一 些 淤 在 问题 ， 也 残 是 Hessian 阵 所 
市 来 的 问题 而 提出 的 。 

Hessian 阵 会 市 来 哪些 问题 呢 ? 

第 一 ，Hessian 阵 不 一 定 正 定 。 尽 管 修 正 的 牛顿 法 可 以 在 一 定 程度 
上 避免 这 个 问题 ， 但 修正 系数 姑 的 选取 是 很 有 挑战 性 的 事情 ， 因 为 过 
大 或 者 过 小 都 会 影响 收敛 速度 。 

第 二 ，Hessian 阵 的 计算 量 大 。 在 牛顿 法 中 ， 每 次 友 代 都 需要 计算 
JAR Aba Hessian. fib es 2H Hessian he — BT RUE RE, OY TK 
规模 优化 问题 ， 三 阶 导 数 的 求解 需要 惊人 的 计算 量 。 

牛顿 法 存在 的 这 些 缺 点 使 学 者 们 提出 了 各 种 解决 方法 。 拟 牛顿 法 的 
基本 思想 是 并 不 直接 计算 优化 函数 的 二 阶 Hessian 窃 孟 ， 而 是 通过 通 近 的 
方法 寻找 Hessian 阵 Cx 的 近似 矩阵 Bi 。 


近似 得 到 B ”的 方法 有 很 多 ， 下 面 我 们 介绍 一 种 近似 逼近 矩阵 忌 ， 
的 方法 。 


设 优 化 函数 为 ROR, AFRDCR" 上 二 次 连续 可 微 。 利 用 
泰勒 展开 优化 函数 / 得 到 二 次 近似 模型 如 下 。 


1 
f(x) © f (Gass) + 9k+1(2— Lea) + g (TD) Gaps (© Tt) (8.24 ) 
该 近似 式 对 变量 z 求 导 可 得 
F(a) © gr+1 t+ Gear (e — Ter) (8.25 ) 


(8.25) 式 在 Xx+1 WIAR, SAE ERA ee AE RIT 
(8.25) 式 在 迭代 点 人 处 为 


f° (an) © Geer t+ Goss (oy 一 01 
RAJE 8, = Fei — Ley Yk =Geri— f (ae), W (8.25) 式 可 变 为 


Gp 41 8x & Yk ( 8.26 ) 
下 面 根据 〈8.26 ) 式 构建 Cr+i HEVE EBr + » Bis 应 该 满足 
如 下 方程 : 


2 
Br+18k = Yk (8.27 ) 


方程 (8.27) PAWL MT ERM EMA. AIH 5 Bri1 ， 

则 得 到 拟 牛 顿 方程 的 男 外 一 个 形式 : 
Hiriy: = sx ( 8.28 ) 

在 进一步 推导 出 Bi+1 的 具体 形式 之 前 ， 我 们 先 看 一 看 目前 我 们 知 
道 哪 些 信 息 。 如 (8.27) 式 和 “(8.28) 式 所 示 ， 我 们 知道 
Sk 二 Tp41 一 Tp， Yk = Jri — F (ar) , Se 和 由 相 邻 迭代 点 坐标 及 其 一 
阶 导 数 计算 得 到 。 我 们 的 目标 就 是 用 一 阶 导 数 和 坐标 信息 得 到 和 滤 阵 
Beri XHr 。 用 一 阶 导 数 估 计 二 阶 导数 ， 从 直观 上 来 想 肯 定 需要 做 差 
分 ， 在 实现 上 来 说 应 该 涉及 选 代 。 拟 牛顿 的 方法 正 是 从 这 点 出 发 ， 通 过 
上 一 步 的 Bi IE Na FI PBrri 的 。 a: 


Bk+1 = Br + Er, Hk+ = Ay + Dy (8.29 ) 


FAA, MID, HRI RERPKR2 EE. PRLE ERRIRE E E TETRA 
或 2 的 矩阵 。 通 常 把 (8.27) 式 或 (8.28) AI (8.29) 式 所 确立 的 方法 
称 为 拟 牛 顿 法 。 

e 秩 1 矩阵 

下 面 我 们 先 介 绍 用 秩 1 和 矩阵 得 到 Bi ,1 的 方法 。 


Pa CRRA RE] HER WE, = auru 其 中 a € RR, u,E R” . 


Bu = B, tau,pup ( 8.30 ) 
ke (8.30) 式 代 入 (8.27) 式 得 到 

(Bi Qu us ) Sk = Yr (8.31 ) 
为 了 得 到 ， 我 们 将 (8.31) 式 展 开 ， 移 项 得 到 

A (Uk Sk) Ur = Yr — Bes; ( 8.32 ) 


其 中 us。 ”为 实数 ， 因 此 由 (8.32〉 式 ， 我 们 知道 UW ”平行 于 
yr 一 Bis ， 即 存在 常数 B ， 使 得 wi 二 Bn — Bese) ， 将 该 式 代 入 Ex 
的 表达 式 得 到 

E, = ap? (yr — Bex) Ye — Bese)” ( 8.33 ) 

FH (8.32) 得 


ab’ | (Yr — Bx Sp) T Sy] (Yr m Bys) — (Yr — B, Sk) 
Eyr — By S,)* sL #0 ; niab” | Cyr — Be sy) * 8. 二 1 ， 由 此 得 到 


1 
p (Ys — Bk Sk) * Sk (8.34 ) 


将 (8.34) RA (8.33) 得 到 


(Yr — B; Sk) (Yr — B, Sx) = 


r= 
| (Yr — BS) Sq 835) 
IRA (8.30) 式 可 以 得 到 Cx+i 的 远近 和 矩阵 为 
— — T 
万， 一 已 十 (Yr By, Sp) (Yr By, Sx) (8.36) 


(yx — De Sx) T S; 

我 们 可 以 利用 相似 的 方法 用 (8.28) 式 推导 出 于 ;+1 ， 由 于 (8.28) 
TRA (8.27) 式 形 式 上 是 相似 的 ， 因 此 推导 人 t+1 的 公式 只 需要 将 
(8.36) FP HJ Yk 和 sx 的 位 置 调换 ， B, PMA, Bay. tate 


(s; — Hi yx) (s; — Hy, yx) ‘ 
(S; — Hi yx) "Yk 


AS Hessian FRENIN, RATAA AA AE TE Oe AE Be TE] je 
了 。 拟 牛顿 方法 的 伪 代 码 如 下 。 

Step 0: 给 定 和 初始 点 XoE 及 ”， 终 止 误 寺 0 三 e 1 ， 和 初始 化 对 称 正 
EH (通常 取 为 单位 阵 ) 。 令 k: =0 ; 

Step1: Allg] Se, MEH. 4E Tr 作为 近似 极 小 点 ; 

Step 2: 计算 搜索 方向 dx 二 一 Hg; 

Step 3: 用 线 搜索 技术 求 步 长 ; 

Step 4: 令 Zr+t1 二 Tx 十 Qxdi ， 由 (8.37) 计算 Hiri; 

Step 5: 4k: =k-+1, ， 转 Step 1. 


目前 最 流行 的 拟 和 牛顿 矫正 法 是 Broyden，Fletcher，Goldfard 和 和 
Shanno 于 1970 年 各 日 独立 提出 的 拟 牛 顿 法， 被 称 为 BFGS 算 法 。 该 算法 
的 基本 思想 与 我 们 上 和 面 介绍 的 拟 牛 顿 方法 基本 类 似 ， 不 同 之 处 在 于 
BFGS #4 7E 18 UT Hessian FB MEANY H 1B IEFB RE B, HERE RE, 


Ay1,= HA, + (8.37 ) 


@FK2 FE M4 
ARQ IE Me AY ER EA SE), BRAT ROE RN A 


Eb; = audi + Bv, vf ( 8.38 ) 
同样 ， 将 (8.38) RA (8.27) 得 到 
(Bi our us + Bugvg )Sk = Ye 
展开 后 得 到 
A (Uk Sk) Ur + (Uk Sk) Ur = Yr — Br sx (8.39 ) 
对 于 (8.39) 式 ，w Ale, ”的 选取 并 不 唯一 ， 其 中 一 种 选择 为 令 
Ux 和 Vi 分 别 平行 于 Brs MY o RAJE Ur = YBkSk, Vr 二 0y ， 其 中 
YVO 为 待定 参数 。 将 它们 代入 (8.38) 得 到 
E, = ary” By 8.8% By BO YY ( 8.40 ) 
Kiur = YBu Sr, Ve = Byr RA (8.39) 式 得 到 
a| (YB. 8x) Sr] (YB. Sx) + BL Oye) © sk] Oys) = Yr — Br sr 
移 项 ， 合 并 同类 项 得 
lary” (sk Bis.) +1] Bis, + [60° (yi s) —1]y, =0 (8.41) 
邻 yi sx > O AV e Se SO MW Biri =B, ， 因 此 BFGS 的 矫正 方式 为 


ay” (sk Bris) +1=0, BO° (yx s) —1=0 





， J 
1 1 
2 — — — 2 — 


将 (8.42) IRIRA (8.40) 式 得 到 


By, 8, 8% B; VeVi 








Bri = Dy — sT B,s, Yf s, ( 8.43 ) 
在 使 用 BFGS 时 ， 奋 使 用 (8.43) 式 ， 则 假设 了 
| B, AT Vi. Sp < 0 
B;+1 = By 8,8; Be. VeVi 1“ T ( 8.44 ) 
i si Bi sx Yk Sk Ye Se > 0 


BFGS 算 法 的 伪 代 人 码 如 下 。 

Step Q: 给 定 参数 0 E (0, l),oe (0.0.5) ’ 初始 点 To E R” ’ 终止 
误差 0 三 e K1, ， 初 始 对 称 正 定 阵 〈 通 常 取 为 单位 阵 ) , Sk: =0 , 

Step 1: EEIE I: = Vf(z:) , Elg SE , ERER, HHT 
作为 近似 极 小 点 : 

Step 2: 解 下 列 线性 方程 组 ， 得 到 : 

Bidy =- g; 
Step 3: 设 M EWE PIARA aE HE 
f (a, +6" dy) < f(a) +06" gi dy 

这 时 利用 线 搜 技术 得 到 搜索 步 长 为 Qx = O™ ， 新 的 达 代 点 为 
Ti+1—= Tk F A, dy, ; 

Step 4: 由 矫正 公式 〈8.44) 48) F Hessian i FE he By +1 ; 

Step 5: Sk: 三 上 十 1 ， 转 Step 1. 

除了 BFGS 算 法 ， 还 有 很 多 其 他 拟 牛顿 的 方法 ， 其 中 比较 知名 的 是 
DFP 方 法 ， 访 方法 是 第 一 个 拟 牛 顿 矫正 法 ， 它 的 推 寻 过 程 与 BFGS 关 
似 ， 这 里 不 再 介绍 。 

至 此， 我 们 已 经 介绍 完 天 于 无 约束 优化 问题 的 基本 方法 。 下 面 ， 我 
们 介绍 市 有 约束 的 最 优 性 条 件 。 

1. 市 有 约束 的 最 优 性 条 件 


TH A AR 0 Td ee A FB i AE o 
min f(z) 
s.t. h;(z) =0, i=1,2, -l ( 8.45 ) 
g(x) 20, i=1,2,…,m 


(8.45) 式 是 一 般 约 束 优化 问题 的 形式 化 。 在 该 式 中 ， 等 式 约束 的 


个 数 为 / 个 ， 不 等 式 约束 为 m 个 ， 记 指标 集 
E= {1,.…,,T= {1, ---,m} ， 可 行 域 为 


D= {xE R”|h;i (z) =0,1E £,g,(2) 20,iET} 。 
在 解雇 (8.45) 的 时 候 ， 需 要 首先 构造 拉 格 明日 函数 ， 即 


L(a,d,u) = f (2) 一 S uh (®) — 2 Xgl) 


下 面 我 们 给 出 一 般 约束 问题 的 KT 一 阶 必要 条 件 ， 设 z+” 是 一 般 约束 
问题 的 局 部 极 小 点 ， 且 满足 (8.45) 式 ， 若 向 量 组 Vhi(zx ), Vgl) 
线性 无 关 ， 则 存在 向 量 (4 ,入 ) ER'XR” ， 其 中 
由 = WA 和 三 (XXXm)” ， 使 得 


Vila") — X wi Vhi(a") — DA Vg.(a") =0 


g(x’) 三 0,N 20,A; 9:(a@") =0, tel 


在 8.1 节 中 ，TRPO 算 法 中 便利 用 了 最 优 性 条 件 。 解 决 市 约束 的 优化 
问题 有 很 多 方法 ， 如 近似 规划 算法 、 可 行 方 同 法、 人 函数 法 、 乘 子 法 以 
eee ee ee 

。 在 第 10 半 中 用 到 了 ADMM 方 法 ， 它 属于 带 约 束 的 最 优化 问题 ， 因 
eq 我 们 会 继续 讲解 一 些 市 约束 的 优化 方法 。 


( 8.46 ) 


8.3 习题 


1.TRPO 算 法 成 功 的 天 键 是 什么 ? 

2.TRPO 用 到 的 四 个 技巧 是 什么 ? 

3. 基 于 gym 于 动 编写 TRPO 的 代 但 。 

4. 利 用 TRPO 的 方法 让 游 动机 右 人 和 跳跃 机 器 人 学 会 运动 。 


9 FET Hf TE VE EM Te RY ee STK 
9.1 理论 基础 


要 想 完全 理解 本 草 的 内 容 需 要 鸣 练 和 营 握 前 8 草 的 要 点 ， 并 且 假 设 该 
者 对 DQN 网 络 很 熟悉 。 

我 们 先 从 图 9.1 开 略 搜索 方法 的 分 类 开始 。 从 图 中 我 们 可 以 看 到 ， 
无 模型 的 策略 搜索 方法 可 以 分 为 随机 策略 搜索 方法 和 确定 性 案 上 略 搜 索 方 
法 。 其 中 随机 策略 搜索 方法 又 有 发展 出 了 很 多 算法 。 可 以 说 ，2014 年 以 
前 ， 学 者 们 都 在 发 展 随 机 策略 搜索 的 方法 ， 因 为 大 家 都 认为 确定 性 生 略 
梯度 是 不 存在 的 。 直 到 2014 年 ， 强 化 学 习 算 法 大 神 Silver 在 论文 
Deterministic Policy Gradient Algorithms 中 提出 了 确定 性 策略 理论 ， 策 略 
搜索 方法 中 才 出 现 确定 性 策略 的 方法 。2015 年 ，DeepMind 的 大 神 们 又 
将 该 理论 与 DQN 的 成 功 经 验 结 合 ， 在 论文 Continuous Control with Deep 
Reinforcement ”Learning 中 提出 了 DDPG 算 法 。 本 和 章 以 这 两 篇 论文 为 素 
材 ， 癌 大 家 介绍 确定 性 策略 。 


RRIAT IA 






无 模型 的 策略 搜索 方法 


随机 策 赂 确定 性 策略 

Cr 引导 策略 搜索 (GPS)， 
传统 控制 器 + 监督 学 习 

策略 梯度 方法 | 统计 学 习 方 法 | | 路 径 积分 | ooe | 


单调 步 长 ， 
方差 约 简 


TRPO 


基于 模型 的 策略 搜索 万 法 


图 9.1 策略 搜索 方法 分 类 
自 完 ， 我 们 先 了 解 一 下 随机 宁 略 和 确定 性 策略 。 
随机 策略 的 公式 为 


To (a|s) = Plas; 6] (9.1) 
其 含义 是 ， 在 状态 为 sg 时 ， 动 作 符 合 参数 为 & KMX. kki 
用 的 高 斯 策略 : 





no(als) = 


oo (- C74) 


20? 


yV 2T O 


当 利用 该 策略 采样 时 ， 在 状态 处， 采取 的 动作 服从 均值 为 fo (s) 
HNO 的 正 态 分 布 。 因 此 ， 我 们 可 以 总 结 说 ， 采 用 随机 策略 时 ， 
即使 在 相同 的 状态 ， 每 次 所 采取 的 动作 也 很 可 能 不 一 样 。 当 然 ， 当 米 用 
高 斯 策略 的 时 候 ， 相 同 的 案 略 在 同一 个 状态 s 处 ， 采 样 的 动作 总 体 上 看 
怠 算 是 有 不 同 ， 兰 别 也 不 是 很 大。 

我 们 再 来 看 看 确定 性 集 上 略 的 公式 ， 如 下 。 


a = jo (8) (9.2) 


AGEL MS AN TA], AER CBO ”相同 时 ) ， 在 状态 为 se 时 ， 动 
作 是 唯一 确定 的 。 

我 们 比较 一 下 随机 策略 和 确定 性 策略 的 优 缺 点 。 

确定 性 策略 的 优点 在 于 需要 采样 的 数据 少 ， 算 法 效率 珊 。 

自 完 ， 我 们 看 随机 束 略 的 梯度 计算 公式 : 


Vod (mo) = Epa | Volog7, (als) Q” (s,a) | (9.3 ) 


(9.3) 式 表 明 ， 宽 略 标 度 公 式 是 关于 状态 和 动作 的 期 望 ， 在 求 期 
望 时 ， 和 需要 对 状态 分 布 和 动作 分 布 求 积 分 ， 这 就 要 求 在 状态 空间 和 动作 
空间 采集 大 量 的 样本 ， 这 样 求 均 信 才能 近似 期 望 。 

然而 ， 确 定性 策略 的 动作 是 确定 的 ， 所 以 如 末 存 在 确定 性 策略 榴 
度 ， 吕 略 梯度 的 求解 不 需要 在 动作 空间 采样 积分 。 因 此 ， 相 比 于 随机 舍 
略 方法 ， 确 定性 案 略 需要 的 样本 数据 更 小 。 盛 其 是 对 那些 动作 空间 很 大 
EREE CEM Lae AD ， 由 于 动作 空间 维 数 很 大 ， 如 果 用 随机 
WER, Tis SEE IR LES EAR TB) A OKA 


HERK ME TE SMS FTTH HY C28 CELT OR et, HY 
EMA RE TE RMS N Re E AIÈ A o 

FACT A ETE TIS, BENLER BANA: BENLE KRR A 
ERR “PS SUP 

强化 学 习 领 域 中 的 各 路 大 神 在 过 去 十 几 年 中 热衷 于 友 展 随机 策略 搜 
系 方 法 是 有 原因 的 。 最 重要 的 原因 是 随机 案 略 本 身 目 市 探索 。 它 可 以 通 
过 探 寺 产生 各 种 各 样 的 数据 ， 有 好 的 数据 ， 也 有 坏 的 数据 一 一 强化 学 习 
算法 可 以 通过 在 这 些 好 数据 中 学 习 来 改进 当前 的 策略 ， 如 图 9.2 所 示 。 
下 古 因为 运用 了 随机 集 略 才 可 以 产生 这 三 条 轨迹 。 这 三 条 轨迹 中 有 好 的 
ie, WIR DEERE La, FY DAR RS EE, AILS MS 
PEFR VERE XY HERRA ThE fel AE 





高 回报 区 域 


三 条 路 径 来 
和 目 探索 策略 





图 9.2 随机 策略 学 习 过 程 
POAT | FE EEJ rE PE RS BA. WAN (9.2) 所 示 ， 给 定 状 态 s MR 
略 参 数 0 时 ， 动 作 是 固定 的 。 也 就 是 说 ， 当 初试 状态 已 知 时 ， 用 确定 性 


策略 所 产生 的 轨迹 永远 都 是 固定 的 ， 吞 能 体 无 法 探 条 其 他 轨迹 或 访问 其 
他 状态 ， 从 这 个 层面 来 说 ， 和 六 能 体 无 法 学 习 。 我 们 知道 ， 强 化 学 习 鼻 法 
是 退 过 智能 体 与 环境 交互 来 学 习 的 。 这 里 的 交互 是 指 探索 性 交互 ， 即 关 
能 体会 答 试 很 多 动作 ， 然 后 在 这 些 动 作 中 学 到 好 的 动作 。 

既然 确定 性 案 略 无 法 探索 环境 ， 那 么 它 如 何 学 习 呢 ? 

答案 是 利用 异 策 略 学 习 方 法 〈off-policy) 。 异 策略 是 指 行动 策略 和 
评估 宁 略 不 是 同一 个 策略 。 我 们 此 处 所 说 的 行动 策略 是 随机 策略 ， 以 保 
LEP E MRA: 评估 束 略 是 确定 性 东 略 ， 即 公式 8.2) 。 整 个 确定 性 


MS WS J EZRA AC (Actor-Critic Algorithm) 的 方法 。 

AC MAURAN ESMAR ATRE Actor 即行 动 俩 
略 ， 另 一 个 元 素 是 Critic 策 略 即 评 佑 ， 这 里 是 指 利 用 函数 逼近 方法 估计 
IE KIZ o 

BN 50 GED LIRIR ACI 771 

随机 案 上 略 的 梯度 为 

Vod (To) = aa ape E [Vologrre (al|s)G” (s,a) | 

如 图 9.3 所 示 ， 其 中 Actor 方法 用 来 调整 8 1H; Critic 方法 逼近 值 函 
HQ" (s,a) ~Q"(s,a), HU 为 待 逼近 的 参数 ， 可 用 TD 学 习 的 方法 
DEH EL PRI ZN o 





Actor —” G2 


图 9.3 AC 方 法 网 络 结构 


FE R E HEAL GMA BB EA 





Voda (to) 一 已 .6p | mo (als) Vo logs (als) Q* (s, a) | (9.4 ) 


Bo (als) 
采样 策略 为 。 


为 了 得 到 确定 性 策略 AC 的 方法 ， 我 们 弟 先 给 出 确定 性 策略 析 度 如 
Ps 


Vo J (Ho) = E, p | Vo Ho (s) V.Q" (s,a)| a= u8) (9.5) 
(9.5) 式 即 为 确定 性 策略 梯度 。 和 随机 策略 梯度 (9.3) 式 相 比 ， 


少 了 对 动作 的 积分 ， 多 了 回报 函数 对 动作 的 导数 。 
Fe RE THA TE. ERT BEY 
Vo JB (Ho) = Pigg | Ve Ho (s) VQ” (s, a) | ne 9.0 ) 


比较 (9.6) 和 (9.4) 我 们 发 现 ， 确 定性 策略 梯度 求解 时 少 了 重要 
性 权重 ， 这 是 因为 重要 性 采样 是 用 人 简单 的 概 诗 分 布 区 估计 复杂 的 概率 分 
布 ， 而 确定 性 生 略 的 动作 为 确定 值 而 不 是 概 深 分 布 ; 此 外 ， 确 定性 入 略 
的 值 函 数 评 估 用 的 是 Qlearning 的 方法 ， 即 用 TD (0) 估计 动作 值 商 数 
并 忽略 重 要 性 权重 。 
有 了 (9.6) 式 ， 我 们 便 可 以 得 到 确定 性 策略 异 策略 AC 算 法 的 更 新 
Wes, WF. 
Ô, =r; + yQ” ENEE? (By .1)) Q” TM Qi) 
Wes = Wi + 4,6; Vs Q” (Si, Ot) (9.7 ) 
0+1 = 0 + Œ Vo Lo (s,) VQ” (S+, 7A ar 
(9.7) AE — 4T ME — 77 A HE R AENT W N A E SE R 
参数 ， 第 三 行 是 利用 确定 性 案 略 梯度 的 方法 更 新 东 略 参数 。 
以 上 介绍 的 是 确定 性 策略 杨 度 方法 ， 可 以 称 为 DPG 的 方法 。 有 了 了 
DPG， 我 们 再 讲 DDPG。 
DDPG 是 深度 确定 性 策略 ， 所 谓 次 度 是 指 利用 深度 神经 网 络 逼 近 行 
为 值 函数 Q” (s,a) 和 确定 性 策略 We (S) 。 
怠 像 介绍 DQN 时 所 说 的 ， 当 利用 深度 神经 网 络 进行 轴 数 通 近 时 ， 强 
化 学 习 鼻 法 第 第 不 稳定 。 原 因 在 于 在 训练 深 怪 神经 网 络 时 往往 假设 输入 
的 数据 是 独立 同 分 布 的 ;然而 强化 学 习 的 数据 是 顺序 采集 的 ， 数 据 之 间 
存在 蕊 尔 科 夫 性 ， 很 显然 这 些 数 据 并 非 独 立 同 分 布 的 。 
为 了 打破 数据 之 间 的 相关 性 ，DQN 用 了 两 个 技巧 : 经 验 回 放 和 独立 
的 目标 网 络 。DDPG 的 算法 便 是 将 这 两 条 技巧 用 到 了 DPG 算 法 中 。 
DDPG 的 经 验 回 放 和 DQN 完 全 相同 ， 不 再 重复 ， 我 们 此 处 只 是 重点 介绍 
DQN 中 的 独立 目标 网 络 。 
DPG 的 更 新 过 程 如 〈9.7) 式 所 示 ， 这 里 的 目标 值 是 (9.7) 式 中 第 


一 行 的 前 两 项 ， 即 
T, + YQ" ($4415 Mo (S:41)) (9.8 ) 


需要 修改 的 就 是 (9.8) 式 中 的 ww 和 4 ， 先 将 ww 和 4 单独 拿 出 来 ， 
利用 独立 的 网 络 对 其 更 新 。DDPG 的 更 新 公式 为 


=r HQ” (8141, Mo (si+1)) — Q” (sai 
Wii = Wi + Ay, 6;VnQ” (si, a4) 

O41 = 0i + Qo Vo Ho (3,) Va Q" (St, 44) wa 
=r tH Ll=7)e 

w = Tw + (1—r)w 


最 后 ， 我 们 给 出 DDPG 的 伪 人 代码， 如 图 9.4 所 示 。 


Randomly initialize critic network Q(s, a\@@) and actor u(s|8”) with weights @° and 8”. 
Initialize target network Q’ and u’ with weights OL — 62, oH — OF 
Initialize replay buffer R 
for episode = 1, M do 
Initialize a random process NV for action exploration 
Receive initial observation state $; pea 
for t= 1, T do 4 了 动 策 略为 随机 策略 


aa action = pal se|0") - 一 -Ne Wi to the current policy and exploration noise 
4 na; a ODSC i í Se 


~mes transition (8+, at, Tt, St+1 ) in R 经 验 回 放 


Sample a random 一 一 of N transitions (si, Qi, Ti, Siz ) from R 












> Toss: yi(yi — Q(si, ail02)?) 
Update ba actor ala using the sea 全 set 


Vonpls, = x > VaQ(s,al00)|, s,a=y(s,) Vor Ht 8/0" )|s, 


Update the target networks: 


目标 网 络 参数 更 新 





end for 
end for 


图 9.4 DDPG 伪 代码 


9.2 >J a 


1.DDPG 与 DPG 的 区 别 ， 可 以 解决 哪些 问题 ? 


2.AC 算 法 的 网 络 结构 是 什么 ? 
3. 利 用 DDPG 的 方法 解决 四 中 机 大 人 行走 问题 。 
4. 借 鉴 DQN，DDPG 有 哪些 地 方 可 以 修改 ? 


10 EF Il FRAIR R EY A TTA 


10.1 理论 基础 


引导 策略 搜索 方法 (Guided Policy Search, GPS) 最 早 是 2013 年 
Sergey Levine 在 斯 坦 福 读 博士 时 提出 来 的 凡人 。Levine 博 士 毕业 后 便 去 
了 们 克利 跟随 Pieter Abbeel 做 博士 后 研究 ， 出 站 后 留 在 伯克利 大 学 任 
教 。 查 阅 他 的 教育 经 历 会 发 现 Levine 读 博 期 间 的 导师 并 不 是 做 机 器 人 方 
器 的 ， 而 是 从 事 计算 机 图 形 学 方 同 的 研究 。Levine 在 读 博 期 间 要 解决 的 
是 计算 机 念 真 中 人 物 的 交 真 运动 ， 这 是 通过 模仿 学 习 或 机 器 学 习 来 完成 
的 。 

以 上 是 题 外 话 ， 言 归 正 传 。 如 图 10.1 为 策略 搜索 方法 的 分 类 ， 从 
引导 人 守 略 搜索 提出 至 今 ， 引 导 彩 略 搜 索 方 法 其 实 已 经 扩展 出 了 有 模型 和 
无 模型 的 两 种 情况 。 与 其 他 直接 的 策略 搜索 方法 不 同 ，GPS 不 会 直接 搜 
RRK, MERRER AR TIED ANA: 控制 相 和 监督 相 。 


策略 搜索 万 法 






无 模型 的 策略 搜索 方法 


单调 步 长 


基于 模型 的 策略 搜索 方法 






引导 策略 搜索 : (GPS) 
传统 控制 器 + 监督 学 习 


图 10.1 策略 搜索 方法 分 类 

那么 ， 引 导 策 略 搜索 方法 为 什么 要 这 样 操作 呢 ? 

首先 ， 我 们 先 看 看 第 8 草 TRPO 方 法 和 DDPG 方 法 的 局 限 性 。 从 图 
10.1 策 略 搜索 方法 的 分 类 可 以 看 出 ， 这 两 种 方法 都 是 无 模型 的 强化 学 习 
算法 。 无 模型 的 强化 学 习 鼻 法 有 很 多 优点 ， 比 如 可 以 不 用 对 外 界 建 模 ， 
尤其 当 外 界 环境 非常 复杂 ， 很 难 建 模 或 根本 无 法 建 模 时 ， 该 方法 是 唯一 


的 方法 。 但 是 ， 无 模型 的 强化 学 习 算 法 也 有 其 固有 的 缺点 : 因为 没有 模 
型 ， 所 以 无 模型 的 强化 学 习 算 法 只 能 通过 不 断 答 试 来 探索 环境 ， 这 些 算 
法 只 能 处 理 参 数 最 多 为 数 百 个 的 宋 略 网 络 ， 对 于 更 大 的 策略 网 络 ， 这 些 
FREE ARCEA fa. AAV eB: 当 随 机 初始 化 有 数 生 个 或 上 万 个 参数 
的 网 络 时 ， 随 机 壬 试 根本 无 法 产生 好 的 数据 。 因 此 ， 对 于 复 林 有 的 任务 ， 
随机 探索 几乎 找 不 到 成 功 的 解 或 者 好 的 解 ， 而 没有 成 功 的 解 或 好 的 解 ， 
乔 能 体 束 无 法 从 中 学 到 好 的 动作 ， 也 束 无 法 形成 民 性 循环 。 综 上 上 ， 无 模 
型 的 强化 学 习 算 法 最 大 的 缺点 是 数据 效率 低 。 

解决 无 模型 随机 探索 问题 的 方法 是 利用 模型 探索 。 如 何 得 到 模型 ? 
一 般 来 说 要 么 从 数据 中 学 一 个 模型 ， 要 么 人 为 地 建立 智能 体 探索 环境 的 
近似 模型 ( 建 机 右 人 模型 是 机 器 人 学 和 机 上 右 人 专家 们 一 直 乐 于 做 的 事 
cea 

有 了 模型 ， 我 们 可 以 做 哪些 事 呢 ? 

第 一 ， 利 用 模型 和 基于 模型 的 优化 算法 ， 可 以 得 到 回报 高 的 数据 ， 
也 残 是 好 数据 。 有 了 好 数据 ， 残 可 以 稳定 训练 集 略 网 络 。 

第 二 ， 有 J 了 模型， 我 们 可 以 充分 地 利用 示例 (demonstration〉 学 
习 。 人 的 示例 可 以 当成 模型 的 初 值 。 

所 以 GPS 方法 将 案 略 搜索 方法 分 成 控制 相 和 监督 相 。 其 中 控制 相通 
过 轨迹 最 优 、 传 统 控制 右 或 随机 最 优等 方法 控制 产生 好 的 数据 ; 监督 相 
利用 从 控制 相 产 生 的 好 数据 进行 监督 学 习 。 

我 们 直观 对 比 下 普通 的 强化 学 习 方 法 和 GPS 的 方法 ， 如 图 10.2 所 
未 。 强 化 学 习 是 入 能 体 通 过 与 环境 交互 产生 数据 ， 从 交互 数据 中 学 习 ， 
如 图 10.2 中 的 图 A 所 示 ; GPS 是 案 略 网 络 通 过 与 控制 相 的 交互 产生 数 
据 ， 从 控制 相 产 生 的 数据 中 学 习 。 换 句 话 说 ， 在 无 模型 时 情况 下 ， 智 能 
VS RRRA) 是 通过 试 错 同 环境 学 习 ; 而 GPS 的 方法 是 同和 逐渐 迭代 优 
化 的 控制 项 和 学习 。 


智能 体 m 新 

测 的 
sn 回 状 
R S 


状态 转移 概率 P(S lS a) 





控制 相 
图 10.2 强化 学 习 原 理 图 和 GPS 原理 网 

我 们 已 经 知道 了 GPS 的 基本 原理 ， 那 么 如 何 用 数学 公 陈 进而 用 代码 
来 实现 呢 ? 

在 回答 这 个 问题 之 前 ， 我 们 先 众 单 了 解 GPS 算法 的 发 展 历程 ， 更 
好 地 理解 GPS 的 实现 思路 。GPS 的 发 展 可 以 从 三 个 方面 了 解 。 

从 问题 的 构建 来 看 ，GPS 经 历 了 基于 重要 性 采样 的 GPS (SGPS) 
-基于 变 分 推理 的 GPS (vGPS) -基于 约束 的 GPS (cGPS) 的 过 程 。 
这 是 Levine 访 博 期 间 的 及 展 思 路 。 

从 优化 方法 来 看 ， 基 于 约束 的 GPS 的 优化 ， 经 历 了 Dual GPS (SEF 
对 偶 梯度 下 降 法 ) (2014 年 ) [18] “BADMM 方 法 〈 布 雷 格 曼 交 叉 方 向 
RT) (2015 年 ) 19] _, Mirror Descent GPS (镜像 下 降 优化 算法 [20] 
) 的 过 程 。 

从 控制 相 来 看 ，GPS 从 基于 轨迹 最 优 〈 人 微分 动态 规划 DDP、 线 性 二 
次 规划 LQR 和 线性 二 次 高 斯 LQG)〉 发 展 到 了 随机 最 优 控制 PI2 GPS. 

接 下 来 我 们 推导 GPS 算法 的 公式 。 有 基体 来 说 我 们 推导 基于 约束 的 引 
导 人 策略 搜索 方法 的 公式 。 我 们 依据 2014 年 Levine 在 ICML 上 的 论文 
Learning complex neural network policies with trajectory optimization 讲 
ffo JRE TIA VCH S EREA, WA ee a 
巧 ， 便 可 以 看 懂 GPS 系 列 的 其 他 论文 。 

基于 约束 的 引导 佛 略 搜索 方法 可 形式 化 为 


ming, Dz (q(T)||p(7)) 

s.t. q (21) = p(X), 
q (i412, t) = p(Terilz, Ue), 
Dir (q (2) To (ulz) || (zu)) =0 


其 中 目标 函数 为 min Dalle), p(r)xexp (I(r)) . 


0,q(7) 


( 10.1) 


(10.1) 式 给 人 的 第 一 印象 是 复杂 ， 强 化 学 习 的 目标 为 什么 变 成 了 
一 个 KL 散 度 ? 

首先 ， 我 们 先 定 义 KL 散 虔 。 

walt) p(T) 是 两 个 分 布 ， 则 两 个 分 布 之 间 的 KL 散 度 为 

"A = J PETER opa 
p(T) 

KL 散 度 是 衡量 两 个 概率 分 布 之 间距 离 的 度量 。 比 如， 当 两 个 分 布 
相等 时 ， 距 离 为 0。 

强化 学 习 的 目标 ， 为 什么 可 以 表示 成 如 〈10.1) 式 的 KEL 散 上 度 呢 ? 

我 们 利用 KEL 散 度 公 式 展 开 目 标 函 数 : 


Du (grjllo(r)) = J unos 2 Par 








(10.2 ) 
一 J q(7)logq(r)dr — J q(T)logp(T)dT 


% p(T) xexp(l(T)) 代入 (10.2) 并 忽略 常数 ， 可 以 得 到 : 


Drr (q(7)||0(7)) 
=- H (q) — E, (I(T) ) + const 
BWA AD AGH, BWN RRRA, (10.1) h 


WW, H ton PRS SPA RIR LER A BK i o TR Re A PE AY PE 
E, AN TEUK, WRK CARI AON EA SPRUE ICE til] PA E 
一 个 分 布 ， 而 非 一 个 硝 定 值 。 第 二 项 是 最 大 化 累积 回报 ， 和 第 用 的 强化 
学 习 目 标 你 持 一 致 。 


将 约束 利用 拉 笠 明日 乘 子 代 入 目标 函数 ，cGPS 整 个 问题 的 拉 格 明 
PABA 


L(0,4, à) = Dx (q(7)||p) + SAD (a(x) To (u,|2,)||q(ae,u,)) (10.3) 
其 中 轨迹 优化 相 的 优化 问 题 为 
=- YF I(2,,th)] —H(q) +A Eya) Dau. (mo (ule,)|lq(uelae))] (10.4) 
监督 相 的 优化 问题 为 
L(6) = > ie 3 Dy. (re (wilzn)|g Cults) ) ( 10.5) 


对 于 轨迹 最 优 相 ， 也 就 是 求解 (10.4) 式 时 ， 我 们 可 以 利用 轨迹 最 
优 算法 。 要 想 利 用 轨迹 最 优 算法 ， 必 须 求 出 每 一 步 的 代价 。 如 何 从 
(10.4) 式 中 求 出 每 步 的 代价 呢 ? 下 面 是 推导 过 程 。 


每 个 轨迹 分 布 4(7) BIET = (Tir tr) ”， 条 件 动 作 分 布 
q (ulz) — N (uy Kz2,, A) 

为 了 不 失 一 般 性 ， 每 个 Xi, AEA 0, RE P28 
T (ue) =N (pE + unt, of), Si 是 相对 于 分 布 g(za 的 协 方差 。 

将 (10.4) 式 中 的 第 一 项 进行 二 阶 秦 勒 展开 : 


T, s 1 T, r T, 1 Dy TE T i Ly T 
A By 9 入 ko A + 9 q(T, Uz) 入 ee A 
Ur Ur Ur Uy — Uy Uy — Uy 


T A\ T ee NT 
= D lat 1A be ale 让 ae (5 tlou mi) 
U; 2 Ut 


il 
(10.4) 式 的 第 二 项 为 


H(q) =- J qlogq 
=- | glog nag rae (-5 luil)" uâ) (10.6) 
108 ra y e a P 5 (Luu i—i 


= = log Al + const 


FE Sa A= UU A, w PAP ie Wiad A KL BLE Z SK 
首先 给 出 高 斯 分 布 的 基本 公 却 如 下 。 


/pw =i 
| woiu 


[ro (a — p)*dz =o" 
ef (2)~N(u, X), g) -NU,T) , RD (fllg) 。 
利用 蜗 斯 分 布 的 基本 公式 可 以 求 得 : 
Dr (flig) = | f og te 
= | f(2)logf(x) de — | f (z)logg (x)da 
= | toog (Baem (en) "s(n) 
- | taos (Biren (¥ent pm) P(e wt nv) a 


af Wh pen ea o 
=F flog +T E —5')) + (u—v)'T (| 


(10.7) 

其 中 第 三 个 等 号 一 定 要 配方 ， 这 样 才能 利用 高 斯 分 布 的 二 阶 矩 计 

算 。 有 了 任意 两 个 高 斯 分 布 的 KL 散 度 ， 再 计算 第 三 项 ， 去 掉 常 数 项 得 
到 


Ega | Dat (ms (ulz) | I (ulz) ) 
= by slog A 下 zir (APE) HION + pa) — Gy + K A U taa — tK) 


(10.8) 
EH (10.8) 的 第 三 项 可 以 写成 


X= ((W + pst+ par- pai) — (wt Ki Kr,— Kz) ) 
fe) (ur + wi) ~ (ut KaD A(G + in) — (ut Ke) 
= J g(x) [((ui + pa + pat — pas) — (ut Kè + Ke, — K3))" Ar X |ds 
= fa) [( (ui (@) — th) + (ui —K) (a—@))" Ar Xldz 


= howa -W Ay “(ir (@) =) (Rd — BE) 8) 
= (ui (2) — 0) 7 Ar (ui (2) — t,) +Tr(S (pa — K)" Ar (us — K)) 


最 后 从 (10.5) (10.6) (10.8) 式 ， 我 们 得 出 轨迹 优化 相 的 目标 
PKI Bi 


py (*)'1, w les gli 
=》 9 ii ii, me mt 9 ( lausu) — 7 log| | 


¿=l Ur 


+a (log Al 十 tr(A' Dr) + (uF (2) — t) A (u E) t) +Tr(S(u3- K)" A (ui —K)) 


(10.9) 
这 时 每 步 的 代价 函数 为 


ae a a yt 
[= gi = K hal E K Lut 加 ip pin ai gi og 
U Uy 2 | 2 


t 


+, og 一 zir (A E) +E) =i) A (WW E) = +Tr(8S(ui— K)" A (ui —K)) 


然后 利用 轨迹 最 优 方 法 ， 如 DDP 或 LQR 便 可 以 得 到 最 优 的 gq。 
监督 相 可 以 利用 两 个 正 态 分 布 的 KL 散 度 公式 (10.7) 得 出 : 


(10.10) 
利用 随机 梯度 下 降 或 者 LBFGS 方 法 训练 神经 网 络 。 
最 后 更 新 和 值 。 
Ae — AM +H NDei (q (24) To (ulada zi, we) ) (10.11 ) 


根据 cGPS 的 计算 公式 ，cGPS 算 法 的 实现 伪 代 码 如 图 10.3 所 示 。 


Algorithm 1 Constrained guided policy search 
: Initialize the trajectories {q,(T),...., qui (T)} 
: for iteration k = 1 to K do 
Optimize each qj (7) with respect to £(@, qi(T), Ag) 


sila M 
Optimize 0 with respect to S~"" , L(0.qi(T), A — (10.10 
. 10.10) 


l 
2 
3 
4 
5: Update dual variables A using} (10.11) 
6: end for 
7: return optimized policy parameters 0 
图 10.3 cGPS 伪 代码 
10.2 GPS 中 涉及 的 数学 基础 


10.2.1 监督 相 LBFGS 优 化 方法 


我 们 已 经 在 8.2 节 介绍 了 BFGS 方 法 。 在 8.2.2 节 中 ， 最 后 求 得 的 
Hessian TINE EW 


B,, 8,8; Bx 4 YL YE 


B., = B, — ST B.s, a, (10.12 ) 
Al] FA Sherman-Morrison7s xk, BEN 
Atuv* A" 
Thri — A... E e O 
(A+ uv?) =A TT ( 10.13) 
AY VAS 4 Bp A Apa WA 
T T T 
Bern ( 一 Ja, ( "E ) +2 (10.14) 
Yk Sk Yk Sk Yk Sk 


BFGS 是 只 适合 中 小 规模 的 最 优 拭 法 ， 因 为 它 震 要 存储 一 个 NxN 
的 和 矩阵， 如 果 N 非 常 大 ， 需 要 占用 大 量 的 内 存 空间 ， 叶 儿 矩 阵 的 读 取 和 
存储 耗费 大 量 的 时 间 。 有 没有 一 种 不 需要 存储 如 此 大 的 矩阵 的 拭 法 呢 ? 

答 采 是 肯定 的 ! 其 中 一 个 算法 就 是 L-BFGS。L-BFGS 的 全 称 为 
Limited-memory BFGS. 

TZ IE WEE AS ARS Fe AS i EE A, Te ea TT IE 
中 的 迭代 点 4s》 和 和 迭代 过 程 中 的 梯度 差 序列 4 ， 而 且 L-BFGS 并 不 需 
要 存储 所 有 的 欠 代 序列 ， 只 需要 存储 最 近 的 m 个 欠 代 序列 即 可 ， 因 此 存 
te HERON?) BEB OMN) 。 


TRSH MDEA RINAS zr V= U pensi) 
， 则 Hk+ 可 表示 为 
Hi+1= Vi He Vp pes se ( 10.15) 
由 于 在 L-BFGS 中 不 需要 存储 人 ，L-BFGS 并 不 采用 (10.15) 式 计 
算得 到 及 :+1 ， 而 是 通过 m 次 欠 代 计算 得 到 。 和 迭代 的 初试 值 为 


(0) __ SE Yr 
= 
yell ° 





(10.16 ) 


(10.16) 式 只 用 到 了 s Aly HE. ERTEAN 


Be Dh_mtiBh_mi dmt i =0, ls “ym ( 10.17 


Hn = He ( 10.18) 
在 《10.17) 式 的 迭代 计算 公式 中 ， 用 到 了 
Vimy Ve mil Ve FS my Sk—m 419°" ,Sk ’ 而 这 些 量 只 与 


人 AR- 因此 对 于 大 规模 无 约 
束 优化 问题 ，L-BFGS 在 计算 Hiy1 时 所 需要 的 存储 量 大 幅 减 小 。 由 
(10.17) 式 和 “(10.18) stay D4 A414 


Hi+1 = Ap 
= Vi HiVi + pu se se 
= (V Vie) View? Ve) (10.19 ) 


m m4] m—g—] 
T | [| VE no [| My 
j=0 1!=0 


10.2.2 ADMM 算 法 


前 面 介绍 了 GPS 算法 的 及 展 ， 其 中 所 到 GPS 使 用 的 优化 方法 。 本 
节 重 点 介绍 ADMM 方 法 ， 它 的 全 称 为 Alternating Direction Method of 
Multipliers， 中 文 译 为 “ 交 蔡 方 同 乘 子 法 ””。ADMM 并 不 是 一 个 新 的 算 
法 ， 它 最 早 分 别 由 ” Glowinski，Marrocco 及 Gabay，Mercier 于 1975 年 和 
1976 年 提出 ， 并 被 Boyd 等 于 2011 年 重新 综述 且 证 明 它 适用 于 大 规模 分 布 
式 优化 问题 。 

从 算法 的 发 展 历史 来 看 ，ADMM 方法 并 非 全 新 的 概念 ， 而 是 整合 
了 很 多 经 典 的 优化 思路 。 更 确切 地 说 ，ADMM 整合 了 乘 子 法 的 收 钱 性 
和 对 伪 上 升 法 的 可 分 解 性 。 因 此 ， 为 了 更 目 然 地 理解 ADMM 算 法 ， 我 
们 先 介 绍 对 偶 上 升 法 和 拉 格 朗 日 乘 子 法 。 

1. 对 偶 上 升 法 


首先 考虑 等 陈 约 束 问 题 如 下 。 
minimize f(z) 
( 10.20 ) 
subject to Ar —b=0 
(10.20) 式 所 对 应 的 拉 格 明日 函数 为 
L(a,y) = f(x) 十 9 (47 一 中 


(10.20) 式 的 最 小 问题 可 写成 in maxL(z,9) 


它 所 对 应 的 对 偶 间 题 为 也 ax min L (x,y) 
对 个 上 升 法 的 欠 代 更 新 公式 为 
2 一 arg min, L(x,y”) 
(10.21 ) 
ee — y” + a" (47Z — b) 


(10.21) 式 的 收敛 性 需要 较 强 的 假设 ， 其 中 Qa” 的 选择 具有 比较 强 
还 是 有 一 些 非 第 好 的 


的 挑战 性 。 虽然 对 偶 上 升 法 存在 固有 的 缺陷 ， 但 它 ; 
ba 可 分 时 ， 整 个 优化 问题 可 以 分 成 


个 子 参数 问题 ， 分 块 优化 后 再 汇集 起 来 整体 更 新 ， 这 样 非 党 有 利于 并 
a any 下 面 我 们 介绍 对 偶 分 解法 。 
假设 目标 函数 是 可 分 解 的 ， 即 


f(z) = 2320 ( 10.22) 
拉 格 朗 日 函数 可 以 写 为 
L(ay) = X Lila) = (fn) +y" Aa — (1/N)y"b) (10.23) 


基于 对 个 分 解法 的 更 新 如 下 。 
并 行 分 僚 优 化 ， 每 块 的 优化 迭代 为 


o;'*=arg min, D,(2,,y") ( 10.24 ) 
FR OSS Ti, -2n a, BROS: 
yt! =y* +a" (Ar*** —d) (10.25 ) 


He k+1 H (10. 24) 式 中 的 2 1,… , EN RAK 


HHA EAX H op ph Ca BE He EL eal), MP AC oC PE te ip ER ee] 
假设 ， 为 了 弱化 这 些 假 设 ， 研 究 者 在 20 世 纪 60 年 代 提 出 了 拉 格 朗 日 乘 子 
法 。 

2. 拉 格 上 明日 来 子 法 

在 拉 格 明日 乘 子 法 中 ， 使 用 扩展 拉 格 明日 函数 代替 上 面 的 拉 格 归 日 
pki 2 : 


L, (x,y) =f (£) +y" (Az —b) + (p/2) || Az — blz 
RTEKA 


eo 


y T = arg minL,(z,y"*) 
7 (10.26 ) 
ytt; =y" + p(Ar*t*— b) 
从 更 新 式 子 来 看 ， 乘 子 法 的 更 新 式 (10.26) 与 对 个 上 升 法 的 的 更 
新 式 〈10.21) 几乎 完全 相同 。 不 同 的 是 乘 子 Y 的 更 新 式 子 。 在 
(10.21) 式 中 ， 乘 子 / ”的 更 新 步 aq” 是 一 个 不 确定 的 量 ， 而 在 乘 子 法 
H, RY 的 更 新 步 是 确定 的 量 C_ ， 即 扩展 拉 格 明日 函数 中 的 惩 避 项 系 
数 。 这 个 系数 并 非 随 意 的 ， 而 是 收敛 性 得 到 保证 的 关键 因素 。 下 面 我 们 
证 明 该 系数 可 以 保证 算法 收敛 。 
证 明 
对 于 原 问题 (10.20) 式 ， 极 值 点 处 应 满足 的 必要 条 件 为 


oe =V f(a" )+ATy =0 ( 10.27 ) 


与 原 问 题 等 价 的 使 用 扩展 拉 格 明日 函数 〈10.26) RER AA 

满足 的 必要 条 件 为 
0= VL,(z™ 0) 
=V,f(a*"") + At ( 十 pz —b)) 

在 新 的 迭代 点 处 (10.28) A (10.27) 式 应 该 具有 等 价 性 ， 也 就 

是 说 新 的 迭代 点 应 满足 下 式 
yt =y" + p(Ar* t — b) ( 10.29 ) 

相 比 于 对 偶 上 升 法 ， 扩 展 拉 格 朗 日 乘 子 法 使 得 收敛 性 条 件 更 宽松 ， 
但 它 破坏 了 分 解 参数 并 行 的 优势 。 因 为 当 f (7) 可 分 时 ， 扩 展 拉 格 朗 日 
图 数 却 不 是 可 分 的 《平方 项 导致 图 数 不 可 分 ) ， 也 束 是 在 优化 的 时 候 
无 法 并 行 优化 。 为 了 解决 这 个 问题 ， 研 究 者 们 提出 了 ADMM 的 方法 。 

3.ADMM AIA (XB D RIFE PIE) 

ADMM 方法 全 称 为 交替 方 回 乘 子 法 ， 它 融合 了 对 俩 上 升 法 的 可 分 
解 性 和 乘 子 法 的 收敛 属性 ， 核 心 是 引入 了 新 的 变量 ， 然 后 将 目标 函数 拆 
分 成 可 分 的 部 分 和 不 可 分 的 部 分 。 可 分 的 部 分 利用 并 行 处 理 ， 不 可 分 的 
部 分 当成 新 的 目标 函数 独立 优化 ， 两 者 通过 引入 约束 条 件 协同 更 新 。 且 
体操 作 如 下 。 

ADMM 将 原 最 小 化 问题 (10.20) 式 转化 为 如 下 约束 优化 问题 : 

minimize f(z) + g(z) 
subject to Ax + Bz=c 
(10.30) 式 中 的 1(z) 和 约束 条 件 都 是 可 分 的 。 与 之 对 应 的 扩展 拉 
格 明 日 表达 式 如 下 。 
L,(2,2,y) =f (a) +g(z) +y* 全 证 十 一 到 十 (村 一 6 


由 于 引入 了 新 的 变量 ， 使 得 原 乘 子 法 中 心 对 7 不 可 分 变 成 可 分 
的 。ADMM 的 更 新 步 邓 为 


( 10.28 ) 


( 10.30 ) 


orl are mint, (a ) 
T 


k+ k+1 


g° t= arg minli ray") (10.31 ) 


ytt: =y" + p(Ar*** + Bz*t*—c) 

其 中 (10.31) 式 中 的 第 一 式 天 于 7X 的 迭代 可 采用 分 布 式 计 算 。 

ADMM 算法 与 乘 子 法 很 像 ， 不 同 的 是 乘 子 法 把 Z 和 2 当成 一 个 变 
量 来 求解 ， 而 ADMM 则 是 分 开 求 解 。 

(10.31) 式 的 第 二 式 用 来 更 新 2 ， 与 本 书 第 3 章 介 绍 的 高 斯 - 赛 德尔 
友 代 计算 类 似 。 在 高 斯 - 赛 德 尔 友 代 计算 中 ， 首 先 更 新 部 分 变量 ， 然 后 
基于 更 新 的 部 分 变量 更 新 剩余 的 变量 。ADMM 算 法 则 是 首先 更 新 ， 然 
后 基于 更 新 的 Z_ Bee 。 不 同 的 是 ，ADMM 在 更 新 ?2 时 用 的 是 不 同 的 
优化 函数 ， 即 二 zy") 。 


10.2.3 KL 散 度 与 变 分 推理 


表面 介绍 GPS 的 发 展 历史 时 ， 第 一 个 面 同 是 从 问题 的 构建 来 介绍 
的 ，GPS 先后 经 历 重 要 性 采样 GPS， 变 分 推理 GPS 和 约束 GPS。 本 节 将 
从 数学 的 角度 来 分 析 变 分 推理 GPS 和 约束 GPS 的 区 别 及 联系 ， 以 及 为 何 
由 变 分 推理 GPS 发 展 成 约束 GPS 。 

1. 一 般 形式 的 期 望 最 大 CEM) 方法 

设 最 大 似 然 率 函数 为 P(X|06) ， 其 中 X 为 观测 变量 。 当 存在 潜在 变 
eZ 的 时 候 ， 直 接 优 化 似 然 紊 函 数 是 很 困难 的 ， 这 时 我 们 引入 潜在 变量 
的 分 布 4(2Z) ， 似 然 率 函数 的 对 数 可 写 为 


Inp (X|0) = | Dm Aaz 


= /ro p(X,Z|9) 37 














p(CZ ~ 
(ee q(Z) ( 10.32) 
= fen pez) 
Bae (Z) 
= fam PO az | (Z)In— “Et; dZ 


= L(q,0) Pe 
通常 E 步 用 来 最 小 化 “10.32) 式 的 第 二 项 KL(gq(2Z)|lp (ZIX)) ， 
步 在 FE 步 的 基础 上 最 大 化 第 一 项 L(g,0)， 
L(g,0) =-KL(q(Z)||p (X,2|0)) 


在 变 分 推理 GPS 中 ， 隐 变量 4 为 轨迹 7 ， 显 变量 为 回报 及 . AIR 
EM 方法 ， 变 分 推理 GPS 最 终 的 优化 目标 为 


L (q, bnew) =- KL (pr (T)|lp (7; Pnew) ) + const ( 10.32 ) 
在 约束 GPS 中 ， 优 化 目标 为 
Drr (gq(7)||p(7)) = KL (q||p 2) ( 10.33 ) 


(10.32) RA (10.33) 式 同 为 KL 散 度 ， 分 别称 为 动量 映射 和 信息 
了 映射 Lie] ， 下 面 我 们 具体 介绍 两 者 的 异同 。 

RITE 为 目标 概率 分 布 ，4 为 目标 概率 分 布 的 台 近 分 布 ， 我 们 求 
q 分布， 以便 4 分 布 近似 目标 分 布 ?》 。 一般 而 言 ， 我 们 可 以 最 小 化 
PANG 之 间 的 KL 散 度 求 得 逼近 分 布 9 。 然 而 KL 并 非 对 称 的 ，p 和 4 之 


间 的 KL 散 度 有 两 种 ， 分 别 为 KL (pllg) 和 KL(gllp) ， 两 者 的 区 别 如 下 。 
wed = arg minKL (pl|q) 称 为 动量 映射 或 M-projection。 在 优化 
过 程 中 ， 动 量 映射 强迫 逼近 分 布 9 在 目标 分 布 2 拥有 高 概率 的 点 处 同样 
拥有 高 的 概率 。 因 此 ， 如 果 逼 近 分 布 9 是 一 个 高 斯 分 布 ， 那 么 动量 映射 
或 M-projection WE FIP 所 有 的 模式 。 
映射 9 二 arg min KL (alip) 称 为 信息 映射 或 者 Lprojection。 在 优化 


过 程 中 ， 信 息 映 射 强 迫 遇 近 分 布 4 在 目标 分 布 为 零 的 点 处 同样 为 零 。 因 
上 此， 如果 逼近 分 布 是 一 个 高 斯 分 布 ， 那 么 信息 映射 或 者 动量 映射 会 逼近 
目标 分 布 的 单个 模 态 。 

现在 ， 我 们 可 以 总 结 变 分 GPS 和 约束 GPS 的 区 别 了 。 变 分 GPS 得 到 
的 是 最 优 策 略 的 M-projection， 如 (10.32) 式 所 示 。 根 据 该 式 优化 得 到 
的 荣 略 试图 复 兰 整个 高 概 靳 轨迹， 这 难免 会 包括 一 些 低 概 率 的 轨迹 ， 融 
会 导致 任意 坏 的 轨迹 也 有 局 的 轨迹 ， 使 案 略 朋 沉 。 而 约束 GPS 得 到 的 
EX UL SHS l-projection, W (10.33) 式 所 示 。 根 据 I-projection 的 性 质 ， 
坏 的 轨迹 会 得 到 抑制 。 因 此 ， 相 比 于 变 分 GPS, AR GPS 能 得 到 更 稳 
FE HDG RAE 

10.3 习题 

1.GPS 痢 有 哪些 算法 ? 

2.GPS 中 动力 学 拟 合 方法 都 有 哪些 ? 

3. 利 用 GPS 解决 倒立 摆 问 题 。 

4. 利 用 GPS 人 解决 机 如 人 路 任 规 划 问 题 。 


第 四 遍 强化 学 习 研 究 及 前 冶 


11! HME 
11.1 概述 


ASH EASE ST ZA SS Sa 8, A 11.1 Aa 


最 大 边际 形式 化 基于 概率 模型 的 形式 化 


学 徒 学 习 || MMP 方法 | | sede 神经 逆向 强 | | mA | | 相对 | | 深度 逆向 


图 11.1 逆 同 强化 学 习 的 分 关 

第 一 个 概念 ， 什 么 是 逆 同 强化 学 习 ? 

表面 已 经 介绍 了 强化 和 学习。 强化 学 习 是 求 素 积 回报 期 望 最 大 时 的 最 
优 策略 ， 在 求解 过 程 中 立即 回报 是 人 为 给 定 的 。 然 而 ， 在 很 多 任务 中 ， 
尤其 是 复 淋 的 任务 中 ， 立 即 回报 很 难 指定 。 那 么 该 如 何 得 到 这 些 回报 函 
数 呢 ? 

人 类 在 完成 复 末 的 任务 时 ， 根 本 就 不 会 考虑 回报 函数 。 但 是 ， 这 并 
不 是 说 人 在 完成 任务 时 就 个 存在 回报 函数 。 可 以 这 么 说 ， 其 实 人 在 完成 
具体 任务 时 有 隐形 的 回报 函数 。 所 以 ， 指 定 回报 函数 的 一 种 方法 是 从 人 
的 示例 中 学 到 隐形 的 回报 函数 。 

如 何 学 习 这 种 回报 函数 呢 ? 

Bre: 建 模 。 逆 问 强 化 学 习 的 提出 痢 天 恩 达 的 思路 是 这 样 的 ; 专 
家 在 完成 条 项 任务 时 ， 其 决策 往往 是 最 优 的 或 接近 最 优 的 ， 那 么 可 以 这 
PRB, SEA EN SRM AE SY RER TB SR ER BAS E Be RMN PAE] 28 BA 
TREY, IZ od RY DY EIR PR eR iS Bd Se BY HY TL Te eK 
数 。 

因此 ， 逆 同 强 化 学 习 可 以 定义 为 从 专家 示例 中 学 习 回 报 函 数 。 

第 二 个 概念 是 逆 问 强化 学 习 的 分 关 。 


如 果 用 数学 的 形式 表示 逆向 强化 学 习 的 早期 思想 ， 那 么 它 可 以 归结 
为 最 大 边际 化 问题 (我 们 在 下 一 节 会 具体 介绍 ) 。 如 图 11.1 所 示 是 强化 
学 习 最 早 的 思想 。 根 据 这 个 思想 发 展 的 算法 包括 : 学 徒 学 习 [ 革 
MMP 方 法 [22] 、 结 构 化 分 类 [23] 和 神经 逆向 强化 学 习 L<4 。 

最 大 边际 化 的 最 大 缺点 是 很 多 时 候 不 存在 单独 的 回报 函数 使 得 专家 
示例 行为 既是 最 优 的 又 比 其 他 任何 行为 好 很 多 ， 或 者 有 很 多 不 同 的 回报 
函数 会 导致 相同 的 专家 策略 ， 也 就 是 说 这 种 方法 无 法 解决 歧义 的 问题 。 

基于 概率 模型 的 方法 可 以 解决 歧义 问题 。 学 者 们 利用 概率 模型 发 展 
出 了 很 多 逆向 强化 学 习 算法 ， 如 最 大 炳 逆向 强化 学 习 、 相 对 粒 逆 向 强化 
学 习 、 最 大 箭 深度 逆向 强化 学 习 ， 基 于 策略 最 优 的 道 向 强化 学 习 等 。 


11.2 其 于 最 大 边际 的 逆 同 强化 学 习 


本 节 我 们 来 了 解 基 于 最 大 边际 的 逆 回 强化 学 习 的 四 种 方法 ， 这 四 种 
方法 几乎 泣 荔 了 近 十 年 来 逆 回 强化 学 习 在 最 大 边际 方 回 上 的 友 展 。 

第 一 个 问题 ， 为 什么 要 近 出 逆 同 踢 化 学 习 ? 

从 第 2 重 到 第 10 草 ， 我 们 介绍 了 强化 学 习 算 法 ， 包 括 如 何晴 略 评 
信 ， 如 何 集 上 略 达 代 。 但 是 有 一 个 很 天 键 的 问题 还 没有 提 及 ， 那 束 是 回报 
图 数 。 因 为 在 利用 强化 学 习 算 法 时 ， 我 们 都 假设 回报 函数 是 人 为 给 定 
的 。 那 么 回报 函数 如 何 确定 呢 ? 这 其 实 有 很 强 的 主观 性 和 经 验 性 。 由 于 
回报 函数 的 不 同 会 寻 致 最 优 策略 的 不 同 ， 因 此 它 非 常 重要。 但 是 当 任 务 
很 复杂 时 ， 我 们 很 难 和 人 为 给 出 回报 函数 。 比 如 在 目 动 车 驶 中 ， 回 报 函 数 
可 能 是 信号 灯 、 前 面 的 汽车 ， 周 边 环境 等 各 种 因 系 的 函数 ， 我 们 很 难 人 
为 判断 给 定 这 个 回报 函数 。 而 且 ， 在 执行 不 同 的 任务 时 ， 回 报 函 数 也 不 
间 。 所 以 ， 回 报 函 数 的 设 定 是 推广 强化 学 习 算法 应 用 的 一 大 障碍 。 逆 加 
强化 学 习 束 是 为 了 解决 回报 函数 的 问题 而 提出 来 的 一 一 只 有 解雇 该 问 
题 ， 哈 化 学 习 算法 才能 得 到 大 规模 应 用 。 

第 二 个 问题 ， 如 何 学 习 回 报 函 数 ? 

其 实 逆 癌 踢 化 学 习 来源 于 模仿 和 学习。 模仿 学 习 本 号 是 一 个 很 大 的 主 
题 。 小 孩子 在 学 习 走 路 的 时 候 ， 模 仿 大 人 。 人 闫 学习 很 多 技能 都 是 从 柑 
iran, (AAA RRB SA, MA ARE J. Te LI RT 
JENE, EREA SRE. TA sue ta alah AW Pub ioe 
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化 。 而 逆 回 强化 学 习 是 从 专家 AAK) 示例 中 学 到 背后 的 回报 函数 ， 能 
沁 化 到 其 他 场景 ， 因 此 属于 模仿 到 了 精髓 。 

下 面 我 们 介绍 下 逆 同 强化 学 习 的 四 种 学 习 方 法 。 

(1) 方法 一 : 学徒 学 习 方 法 。 

学 徒 学 习 是 吴 恩 达 和 Abbeel 提出 来 的 。 它 的 意思 是 智能 体 从 专家 
示例 中 学 到 回报 函数 ， 使 得 在 该 回报 水 数 下 所 得 的 最 优 策略 在 专家 示例 
策略 附近 。 下 面 我 们 对 此 做 深入 分 析 。 

未 知 的 回报 函数 R(s) 一 般 都 是 状态 的 函数 ， 因 为 它 是 未 知 的 ， 所 
以 我 们 可 以 利用 冰 数 逼近 的 方法 对 其 进行 参数 通 近 ， 其 吉 近 形式 可 设 为 
R(s)=w-o(s) ， 其 中 9(s) 为 基 函 数 ， 可 以 是 多 项 式 基 底 ， 也 可 以 是 
傅 里 叶 基 底 。 刻 同 强 化 学 习 要 求 得 的 是 回报 函数 中 的 系数 。 

根据 值 函数 的 定义 ， 策 略 交 的 值 函 数 为 

E, -p lV" (so) | 

= EUR oy’ R(s,)|7] 

= ER oy’ w b(s,)|7 | 
=W * Eloy’ b(s,)|7] 

定义 特征 期 望 为 4(7) 二 [oy '9(sj)|r] 。 需 要 注意 的 是 ， 特 征 
HAMRET AK, TMS ANIA, MR HER te NAG [a] 

ENTREE, ERANS E-l V" (50) ] =w: wr) 


(11.1) 
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AN 


> 1 , 
1 = Loy ols) (11.2) 


其 中 ， 专 家 状态 序列 为 专家 轨迹 《50 ,57 小 条 1 。 


nia’ Guano E Pe Se Se OY PA AUB ae: 寻找 
TRUS, EERI SS AR UI LIE 


ee 略 的 好 坏 ， 要 找到 一 个 脓 略 ， 
使 它 的 表现 与 专家 东 略 相近 ， 其 实 束 古 找 到 一 个 策略 元 的 特征 期 望 与 专 


家 守 上 略 的 特征 期 望 相 近 ， 即 使 如 下 不 等 式 成 六 : 


lu) — pelle Se 
SZ AGRE, SEERA w SSi ， 值 函数 满足 如 下 


五 [ oY R(s,)|t2] — EL oy’ R(s,)|7] | 


= lw" er) — 0" pa (11.3) 
< ||wllo||uCt) — walle 
g 


l-c=e€ 
(11.3) 写成 伪 代 人 码 ， 如 图 11.2 所 示 。 
逆向 强化 学 习 伪 代码 : 


(0 


1. Randomly pick some policy 7 , compute (or/approx- 


imate via Monte Carlo) pu“? = p(x’), and/set i = 1. 


2. Compute t'™ = maxw:|wll2a<1 MiNje{0..(i—1)} W T (ur 


uu’), and let w‘ be the vi alue of w that attains this 
maximum. 





3. If t™ < e, then terminate. 





. Using the RL algorithm, compute the optimal policy 
x) for the MDP using rewards R = (ww 人) 4. 










(2) 


. Compute (or estimate) 1 = ulr”). 


6. Set i = i + 1, and go back to step 2. 


图 11.2 学 徒 学 习 伪 代 码 
其 中 第 二 行 的 目标 函数 为 


t? = MAX yw.) w).<1 MIN je (0... G-p W" (He — KW”) 
写成 标准 的 优化 形式 为 
max;, t 
s.t. wT pep Sw pw? +t, j=0,.……,i—1 


lwlls<1 


注意 : 在 第 二 行 求解 时 ， uP 中 的 JE 《40,1,…,i 一 1) 是 前 i 一 1 


次 欠 代 得 到 的 最 优 策略 。 也 吏 是 说 第 i 次 求解 参数 时 ，i-1 次 适 代 是 己 知 
Ho JCA AR AY Be DL eA UE SPS AC He i-1 NARE M TA] Be 


大 边际 。 

如 图 11.3 所 示 为 最 大 边际 方法 的 直观 理解 。 我 们 可 以 从 支持 向 量 机 
的 角 虚 理解 。 专 家 浓 略 为 一 类 ， 其 他 全 略 为 另 一 类， 参数 的 求解 其 实职 
是 找 一 条 超 曲 面 区 分 专家 策略 和 其 他 策略 。 这 个 超 平 面 使 得 两 类 之 间 的 


边际 最 大 。 
ue pw 
ee 
i se <7 
@--- SA (nT ) 
~ A? 
n(n) 


图 11.3 最 大 边际 方法 的 直观 理解 
第 四 行 是 在 第 二 行 求 出 参数 后 ， 得 到 回报 函数 RR 二 (w) ， 利 
用 该 回报 函数 强化 学 习 ， 从 而 得 到 该 回报 函数 下 的 最 优 策略 。 
综 上 ， 道 向 强化 学 习 的 学 徒 学 习 方法 可 分 为 两 步 : 第 一 步 在 已 经 迭 
代 得 到 的 最 优 策 略 中 ， 利 用 最 大 边际 方法 求 出 当前 回报 函数 的 参数 值 ; 
第 二 步 是 将 求 出 的 回报 函数 作为 当前 系统 的 回报 函数 ， 并 利用 正 向 强化 


PET ATIESK UCI ae RS. A SLR BI, REAR 
次 人 循环。 

(2) 方法 二 : 最 大 边际 规划 (MMP) 的 方法 。 

MMP 的 方法 将 迎 同 强化 学 习 问 题 建 模 为 
D= (Ags A aP hati) y o 

SUH MM Ae BG BE a ATR AS 28 le], SJETE, AAN 
K, PIRRE Be, SACLE PRK ti ZK ER BY 

在 MMP 的 框架 下 ， 学 习 者 试图 找到 一 个 特征 到 回报 的 线性 映射 也 
束 是 参数 ， 在 这 个 线性 映 冉 下 最 好 的 案 略 在 专家 示例 策略 附近 。 访 过 程 
可 形式 化 为 


。 Lye, Y 
min zlwl? +Z’ BC: 
i (11.4) 


(11.4) BAIT NARA, BARNA CU FP. 

e 约 束 只 允许 专家 示例 得 到 最 好 的 回报 的 权 值 存 在 ; 

ee 回报 的 边际 和 震 ， 即 专家 示例 的 值 函数 与 其 他 策略 的 值 轴 数 的 和 
fh, oR ARTA A R AMIE EE o 


此 处 的 策略 损失 函数 L;(y) 是 指 策略 与 第 条 专家 轨迹 Yi 之 间 的 
该 过 可 以 利用 轨迹 中 两 种 策略 选择 不 同 动 作 的 吕 和 来 衡量 。 
用 KH; 表示 第 个 专家 策略 ， 用 人 表示 任意 的 策略 。 回 报 函 数 利 用 特 
征 的 线性 组 合 表示 ， 则 (11.4) 式 中 回报 函数 f(yi) = Fim, FP, 为 
特征 基底 。 

原 问题 (10.4) 可 形式 化 为 


Ne 


- 1 2 Y q 
min lwl? +Z 2 ,bc 
i (11.5 ) 
st. Vi wt Fm; + ;> max w Fnt+l u 
HEG, 


CA ATM 是 指 每 个 状态 被 访问 的 频次 ， 如 图 11.4 所 示 为 访问 频 
次 的 示例 。 


(s,a) (s,a) 





图 11.4 FRM 


其 中 状态 s 处 的 频次 应 满足 流入 流出 关系 : 


Soup; (x’|z,a) +s? = Sour (11.6) 


请 留意 si 表示 初始 位 置 。 
接 下 来 我 们 要 处 理 不 等 式 约 束 右 侧 的 最 大 值 ， 右 侧 的 最 大 值 等 价 于 
如 下 问题 。 


max w F;u+l; u 


HEG; 


; C17) 
subject to: N pp (ma) 十 8 — Sou 


tee fe BAAR BE COPTIC AINA, AN SRST) Sey DA S 
学 ) » HAIA lal ey 


mins; v 
vEV; 


i (11.8) 
subject to: Vz,a v? => (wt F,+1,)** + Xn, (x’|z,a)v" 


联合 (11.5) 和 (11.8) sh, Kee Ee eA Pa 


问题 ; 
_ i 2, T r 
min 5 llwl?+ 7 DB 
st. Vi w” Fiju + Gi 2 8 V (11.9) 
vima up 2 (w F,+1)%*+ > Pi (x’|t,a) uz 
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进行 求解 。 

(3) 第 三 个 方法 : 基于 结构 化 分 类 的 方法 。 

MMP 方法 在 约束 不 等 式 部 分 ， 变 量 是 策略 ， 需 要 迭 代 求 解 MDP 
的 解 ， 而 一 个 MDP 解 的 维 数 与 状态 的 维 数 相 同 ， 因 此 求解 过 程 复杂 ， 
计算 代价 很 高 。 那 么 ， 是 否 存 在 不 用 求解 MDP 也 能 学 习 回 报 函 数 呢 ? 

当然 可 以 ， 我 们 接 下 来 要 介绍 的 结构 化 分 类 的 方法 就 是 其 中 的 一 
种 。 

在 学 徒 学 习 算法 中 ， 回 报 函 数 可 以 表示 为 


Ro (s) = 0 p(s) 
tT ATE PA BC BY DA SQ 
Qs (s,a) 一 0 u” (s,a) 


RE w™ (s,a) = wl 7'b(S,)|So = s, Ao = a,7 | 称 为 特征 函数 。 


t>0 


关于 特征 函数 ， 第 i 个 元 素 1r (s,a) 二 Qs (s,a)”， 我 们 可 以 理解 为 立即 
回报 函数 为 8;(s) 时 所 对 应 的 值 函数 。 最 后 我 们 得 到 的 行为 值 函数 其 实 
是 不 同 立 即 回 报 函 数 所 对 应 的 值 函 数 的 线性 组 合 。 

为 了 避免 迭代 计算 MDP 解 ， 我 们 可 以 这 样 考虑 问题 ， 对 于 一 个 行为 
空间 很 小 的 问题 (比如 网 格 世 界 ， 状 态 空 间 可 以 有 很 多 ， 但 行为 空间 只 
有 上 下 左右 四 个 动作 ) ， taperen A ee ee 
动作 。 用 分 类 的 思想 去 考虑 最 优 的 策略 ， 每 个 动作 看 做 一 个 类 标签 


么 所 谓 的 案 略 其 实 融 是 把 所 有 的 状态 分 成 四 关 ， SANTEE, 
BUF WAP RY a RA HE BI Bo 


AF-S EAR, EFA AY DAF 


~ tage. A 
min 5 ||6\|?+ ay 
s.t. Vi, 0 p" (Si, Qi) Tine max 0 p" (s;,a) + L(si,a) 


(11.10) 


约束 中 的 《si a) 为 专家 轨迹 ， 凡 (so) 可 以 利用 蒙特 卡 罗 的 方法 
求解 。 而 对 于 J (si,4 Fai) ， 则 可 以 利用 启发 的 方法 来 得 到 。 
比如 对 于 专家 轨迹 
T= {51,01,82,°°°,8n-1;4n-1,8v,Qv) , [™(s,,0;) 和 有 (sd £ a;) 
AY op i] FR Ze te: 


N 
y ISSN, tL’ (Si, ai) = X YG(s)) 


pe"? (si,a 去 Qi) - na (Si, Qi) 
综 上 ， 从 数学 形式 化 的 角度 看 ， 结 构 化 分 类 方法 (11.10)〉 式 和 最 


大 边际 规划 方法 (11.9) 式 有 很 多 相似 的 地 方 。 但 两 者 有 本 质 的 不 同 : 
(11.10) 式 约 束 每 个 状态 处 的 每 个 动作 ， 而 (11.9) 式 是 约束 一 个 MDP 
fi; 从 计算 量 来 看 ， (11.10) 式 要 小 很 多 。 

(4) 方法 四 : 神经 逆向 强化 学 习 。 

逆 癌 强化 学 习 要 学 习 的 是 回报 函数 ， 以 避免 人 为 设 定 回报 函数 的 问 
题 。 但 是 ， 在 学 习 回 报 函 数 时 又 引入 了 需要 人 为 指定 的 基底 ， 即 我 们 之 
前 己 经 假设 的 回报 函数 的 形式 : 

Ro (s) 一 0 f(s) 

其 中 8(s) ”是 人 为 指定 的 基底 。 对 于 大 规模 问题 ， 人 为 指定 的 基底 
表示 能 力 人 不足 ， 只 能 禾 盖 部 分 回报 函数 形式 ， 难 以 泛 化 到 其 他 状态 空 
A] 。 

解决 方法 之 一 是 利用 神经 网 络 表示 回报 函数 的 基底 。 

此 时 ， 回 报 函 数 可 表示 为 7(s,a) 一 0 f(s,a) 。 

神经 逆 辐 强化 学 习 的 整个 框架 仍然 是 最 大 边际 法 的 框架 ， 因 此 问题 
形式 化 为 


Nr 
. 1 | 
min 508+CD €° 
i=l (11.11) 


st. QF (8P, aP) +EP = max gr(sp,ap) 十 Haiag) 


如 图 11.5 所 示 为 神经 逆 回 强化 学 习 的 伪 代 人 码 。 


Input: the expert's feature expectations ye. 
1: Randomly puomein an initial neural policy x ‘”, represented by 
its weights 2°" = (we) we"). 
2: Seti = 1. 
3: while į > 0 do 
4 Execute the current or a” and generate a se — ence ce. 


Do th) 


of state-action pairs ¢“’ = {(s,’,a,')}, and compute p” = 
yR). 
Minimize the objective pr ction t“ = ming /(@) in Eq. l i 
in 5 lAl3+C) e” 

(21) s.t. lAl < 1, and let 8” be the value that attains this min 9 2 

minimum. 
6 if t” < e then iy r 
7 Terminate. s.t. Q5*(s,",a;") FEV > mi ax Q*(s;",a: 


9: Coinga the rewards r(s, ,a,) = (6 A a, 


) 一 0 u"(s,a ) 
and ea the SARSA algorithm, update the A values of Xo 





sequenc 
10 Mia the neural polic oh a to c come the current 


optimal neural weights {2° = (w" we" }, which eer 值 函数 逼近 强化 学 习 算 法 


represents the new policy 7 
11 Seti=i+1. 
12: end while 
Output: a series of NN weights 2”, 2, .... 


图 11.5 神经 逆 同 强化 学 习 盆 代码 
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1. 最 大 燃 方 法 如 何 元 服 卜 义 性 

coerce oe RRR rd fe 
阅读 天 苗 老 师 的 《数学 之 美 》 第 20 章 ; KTE ARBANE, E 
议 大 家 阅读 李 和 老师 的 《统计 和 学 习 方法 》。 在 概率 论 中 ， iiit 
HEE. PEERK, ARK. E, EKHE ERN, MAA P 
均匀 分 布 的 燃 最 大 。 因 为 均匀 分 布 在 固定 区 间 每 一 点 取 值 的 概率 部 相 
等 ， 所 以 取 哪 个 值 的 不 确定 性 最 大 。 

Be NREL: 在 学 习 概 率 模 型 时 ， 在 所 有 满足 约束 的 概率 模型 《〈 分 
布 ) 中 ， 燃 最 大 的 模型 是 最 好 的 模型 。 原 因 在 于 通过 燃 最 大 所 选取 的 模 
型 ， 没 有 对 未 知 〈 即 除了 约束 已 知 外 ) 做 任何 主观 假设 。 也 就 是 襄 ， 除 
了 约束 条 件 外 ， 我 们 不 知道 任何 其 他 信息 。 

比如 ， 当 我 们 猜 训 一 个 筑 子 每 个 面 天 上 的 概率 时 ， 我 们 猜 每 个 面 乾 
上 的 概率 都 是 16， 其 实 这 个 解 就 是 最 大 燃 解 。 因 为 ， 我 们 际 了 知道 每 
个 面 天 上 的 概率 加 起 来 等 于 1 之 外 ， 并 不 知道 其 他 和 条件， 这 时 猜 负 出 的 





LJ 4) E EE IRAE o 

BA, MSE SS ee, BR ALE Ae? 其实， 在 学 
徒 学 习 中 ， 我 们 在 计算 特征 期 望 的 时 候 ， 已 经 用 到 了 概率 模型 ， 我 们 回 
顾 下 ， 特 征 期 望 可 定义 为 

u(r) = ELEZ oy’ d(s,)|7] 

Zr EMR e AHL, RAJE Da Be Se IES EBA 

~ 1 | 
= i Deo P(8:") 

EBA BY FE Te, SRT CARESS: 存在 一 
DREKST, TEAM aA RB, PUR SRA. ea 
知 数据 、 求 模型 的 问题 。 即 已 知 专家 轨迹 ， 求 解 产生 该 轨迹 分 布 的 概率 
模型 。 此 时 ， 已 知 条 件 为 

> PR =} (11.12) 
Path ¢ 

这 里 用 f 表示 特征 期 望 ， 帮 表示 专家 特征 期 望 。 在 满足 (11.12) 
约束 条 件 的 所 有 概 康 分 布 中 ， 焙 最 大 的 概 康 分 布 是 除了 约束 外 对 其 他 任 
何 未 知 信 息 没 有 做 任何 假设 的 分 布 。 所 以 ， 最 大 燃 的 方法 可 以 避免 歧义 
性 的 问题 。 基 于 这 个 思想 ， 学 者 们 先后 提出 基于 最 大 信息 燃 ， 基 于 最 大 
AE AY WR AE FR ED ZS EE J ae SI VE 

(1) 第 一 种 方法 : SEP ROS Be Ee LZ 9I 。 

ABA, WHAHAHA I J Sg EZR REY Ep E? 
FA) BY EP ROE Be eS el! 。 

WK, AEE Toe. AE, FETT Ta) eee MA en EY 01 [a 
题 ， 访 优化 问题 可 形 陈 化 为 


max — plogp 
s.t. > PQ) f.=f (11.13 ) 


Path Q; 
SP=1 
公式 (11.13) 是 炉 最 大 的 形式 化 表述 ， 利 用 拉 格 朗 日 乘 子 法 ， 该 


优化 问题 可 转化 为 
min L= 》 plogp— 》 d,(pf,— fi) —Ao(Zp—-1) (11.14) 
Gi j=1 
K (11.14) WEP 进行 微分 ， 并 令 其 导数 为 0， 可 以 得 到 


OL = 
Gi j=1 


最 后 得 到 拥有 最 大 燃 的 概率 为 


exp > A; i) 1 


- (11.15) 
= agi ¥en (DN 
其 中 参数 ^j 对 应 着 回报 函数 中 的 参数 ， 该 参数 可 以 利用 最 大 似 然 
的 方法 求解 。 


一 般 而 言 ， 利 用 最 大 似 然 的 方法 对 式 〈11.15) 中 的 参数 进行 求解 
时 ， 往 往 会 遇 到 未 知 的 配 分 函数 项 人 ”， 因 此 不 能 直接 求解 。 一 种 可 行 
的 方法 是 利用 次 梯度 的 方法 ， 如 (11.16) 式 所 示 。 


VL(A) =f— > POATA (11.16 ) 
Ç 


(2) 第 二 种 方法 : FEF Raye ae l2] 。 


Æ (11.16) 中 需要 利用 轨迹 的 概率 P(6) 。 该 轨迹 的 概率 可 表示 
为 


k H 
Pr(r|0,T)xdo sew >> afi | [Tss a) 
i 二 1 t=1 


RAAT HELE RAAB MEST (S:4118,0) 是 已 知 的 。 然 
而 ， 在 无 模型 的 强化 学 习 中 ， 访 模型 是 未 知 的 。 为 了 解决 此 问题 ， 我 们 
FY DAG Fra] ek SE AR ET I se KR ATI ZA BE TE R ST] E 
化 学 习 方 法 [<6] 。 

设 @ ”为 利用 均匀 分 布 策略 产生 的 轨迹 分 布 ， 要 求解 的 概率 分 布 为 
P(T), HETEREN 








P(r) 
min 2 Pon ge 
s.t. Vie {1, ---,k}: 
Dror- i <€, (11.17) 
S P(r) =] 


VreET: P(r) 20 


IRE, AAPA BH ASE SILAIKKTALE, EIAI RA 
解 : 


P(7|0) = ze em a.) (11.18 ) 


ISI LE AIR, SBCA A eT REF BB PE NT 
法 : 


VL(0) =fi— 》 P(rlO) f? — oe (11.19) 


在 利用 次 梯度 的 方法 进行 参数 求解 时 ， 最 关键 的 问题 是 估计 
(11.19) 式 中 的 概率 卫 (7|0) 。 由 最 大 相对 灼 求解 可 以 得 到 该 概率 的 
计算 公式 ， 如 (11.18) 式 。 

我 们 将 Q 显 式 表述 出 来 ， 由 定义 知道 ， 它 是 在 策略 为 均匀 策略 时 得 
到 的 轨迹 分 布 ， 因 此 可 将 其 分 解 为 

Q(T) 一 站 4r)U (7) 
| = do (s) T:21T (5:41|8:, a4) (11.20 ) 
1 
"TA 
将 (11.20) RA (11.18) , H UERR AKII REA 

Di¥) exp (X10; fi) 

d)-erD (rT) exp (X10; f7 ) 


这 时 ， 我 们 再 利用 重要 性 采样 对 〈11.21) 进行 估计 ， 得 到 次 梯度 


P(7|0) = (11.21) 


fi- N POOF — AE; 


TET 


os 1 PUG) a 
= fi N dy D(r)x(r) f: Q; Ei 


ym _, Dep- bf) 

a Bren DoD 

" N D(r)exp(7%106;f7) 
1 


D boa 0, i 
Ly DOE es) 


> DOO) pp 
了 1 D(7)exp (Drab f7 ) f: iiai 


NAren DOC) 


N 
exp (0716; f7 ) 
rets 
一 odie, fi — oe 
l exp (27-19; f7 ) ' oa 


LIET TIT) 

(3) EZRA, Rw eal, 

E, RKAS HMA ESA Pe T EAE, BEKER 
中 逆向 强化 学 习 仍然 难以 应 用 ， 这 是 因为 : 

Q@ ”回报 函数 的 学 习 需 要 人 为 地 选择 特征 ， 对 于 很 多 实际 的 问题 ， 
特征 的 选择 是 很 困难 的 。 

O ”很 多 逆向 强化 学 习 的 子 循环 中 包含 正 向 强化 学 习 ， 而 正 向 强化 
学 习 本 身 就 是 很 难 解决 的 问题 。 

上 面 的 第 一 个 问题 涉及 回报 函数 的 表示 问题 ， 要 想 取代 人 为 的 特征 
设计 ， 可 以 利用 深度 神经 网 络 来 逼近 回报 函数 ， 利 用 深度 神经 网 络 来 解 
决 逆向 强化 学 习 的 算法 称 为 深度 逆向 强化 学 习 算 法 ， 针 对 第 二 个 问题 ， 
可 以 采用 基于 采样 的 方法 替代 正 向 强化 学 习 。 

下 面 介绍 基于 采样 的 逆向 强化 学 习 方法 。 

TERA ISTE ST, SRS E IL A Bd 


fi — Qe 
(11.21) 


p(T) = exp (-co(T)) (11.22 ) 


Rp Z = / exp(-co(7))dr 。 前 面 两 种 方法 因为 2 无 法 直接 估计 
Aco eB, TCL RE TTI © MN SPACE E HB HS? Od Me 
利用 育 景 分 布 的 样本 佑 计 配 分 函数 4 6 A ii eta H RREN o 


利用 (11.22) 式 ， 取 示例 轨迹 的 似 然 函 数 并 取 人 负 对 数 得 到 优化 目 
标 : 


1 
Croc(O) = N dy Ca (Ti) + logZ 


T; © Dae 


~t 到 2 (1) + log E exp (—c9(7;)) 


Ti © Dae g(r) 


(11.23 ) 


hPa 表示 N 个 示例 轨迹 ， 人 Dsamp HARM 个 背景 分 布 的 样本 ， 
4 表示 用 来 采样 7 的 分 布 。 在 以 前 的 方法 中 ，4 取 均 匀 分 布 。 


计 问 强化 学 习 的 目标 是 学 到 最 好 的 参数 ， 使 得 目标 函数 (11.23) 
取 最 小 值 。 为 了 方便 计算 目标 函数 相对 于 代价 参数 4 WER, WER 


a, y = SPO) Z=5w,. 


Í q(T;) 


HPKZ (11.23) 式 相 对 于 参数 0 的 如 数 为 


dL toc (0) E 1 dco (~ ot 


mpl 


FE FEF RIE AY sae A ET] ARNAR, FRR LET A 
RIMI 对 于 成 功 是 最 关键 的 。 用 来 估计 配 分 函数 的 最 优 重要 性 采样 分 


布 即 背景 分 布 应 该 满足 a (7) xlexp(—c9(7))| 。 但 是 ， 当 代价 函数 ce 未 
知 时 ， 设 计 一 个 单独 的 采样 函数 9(7) “是 一 件 困难 的 事情 。 一 个 不 错 的 
方法 是 自 适应 地 修改 采样 函数 9(T) ”， 使 得 该 采样 函数 在 当前 回报 函数 
Jy co T) 的 高 回报 区 域 能 产生 更 多 的 样本 。 

如 何 得 到 这 样 的 末 样 函数 呢 ? 

我 们 在 第 10 ENAS SREB AN CAG SSR RO 
即 通 过 cGPS 的 方法 求 得 。 在 cGPS 算法 中 ， 通 过 将 目标 函数 设置 为 
E [co(T)] —H (r) , A cGPS 方 法 可 以 得 到 轨迹 分 布 
q(T) xexp (co (7)) o 

有 了 上 面 的 知识 ， 我 们 便 可 以 介绍 应 用 了 深度 神经 网 络 和 采样 技术 





的 逆向 强化 学 习 算 法 引导 代价 逆向 学 习 算 法 。 访 算法 由 下 面 的 算法 
1 和 算法 2 组 成 。 


(1) 算法 1。 
D 初始 化 4:(7) ， 初 始 化 的 方法 要 么 是 随机 初始 化 控制 器 要 么 来 自 
于 示例 |; 
O 迭代 计算 ;一 1 到 7 ， 
© 利用 控制 策略 qi (T) 产生 轨迹 数据 集 Duai ; 
D 保存 轨迹 数据 集 到 样本 数据 集中 ;Du 全 Downs LJ Dea : 
© 利用 样本 数据 集 Dsom 来 更 新 代价 函数 ， 具 体 方法 见 算法 2; 
© 利用 轨迹 集合 和 cgps 更 新 采样 策略 qi (T) 以 便 得 到 q+1(7) ; 
@ 结束 . 
算法 1 中 的 第 5 行 ， 利 用 新 的 数据 集 更 新 代价 函数 是 通过 算法 2 实现 
的 。 
(2) 算法 2。 


D For #4 k=1 到 K do: ; 
© 从 示例 数据 集中 采样 示例 Dawwo C Daemo ; 


© 从 样本 数据 集中 采集 样本 依 ,,, C Dw ; 
D 将 示例 保存 到 样本 集中 :人 Dw 全 Daowo |] Domp : 


r~ EN T L roc 、 
© HA Dano Dano Hirt HARBIN FM MK (9) ， 具 体 公式 


为 〈11.24) ; 
ow 
加 利用 梯度 40 (0) 更 新 参数 0 ， 


( End for; 

返回 优化 的 代价 函数 的 参数 。 

我 们 还 要 处 理 的 一 个 细节 是 如 何 利用 样本 数据 估计 配 分 图 数 。 如 
(11.23) 去 所 示 ， 配 分 函数 的 估计 需要 用 到 重要 性 采样 ， 尽 管 有 的 文 
献 建 议和 直接 抛 春 重要 性 权重 ， 但 这 会 使 得 估计 不 连续 ， 不 能 估计 得 出 好 
的 代价 函数 。 在 算法 2 中 ， 利 用 样本 数据 估计 配 分 图 数 时 ， 样 本 数据 其 
实 是 从 多 个 分 布 中 提取 出 来 的 。 因 此 ， 我 们 需要 计算 一 个 融合 的 分 布 估 
算 重 要 性 权重 ， 即 给 每 个 样本 计算 一 个 合适 的 权重 。 

比如 ， 我 们 有 来 自 k 个 分 布 的 样本 q1(7),… ,4 (7) ， 能 在 均匀 分 布 
下 构建 一 个 连续 的 期 望 估 计 峰 : 

1 


y AD 
PR (T;) 


Elf (r)] ~ 7E- 
因此 重要 性 权重 为 
zj = T Inte (15) (11.25) 


目标 函数 为 


1 1 
Loc) => 2, olt) tlog | zjexp(-co(r;)) (1126) 
T; © Daemo 


dem Tj = ne 


其 中 (11.25) 式 是 计算 每 条 轨迹 的 概率 。 

至 此 ， 我 们 已 初步 了 解 了 基于 采样 的 最 大 燃 逆 同 强 化 学 习 方 法 。 

深度 逆 癌 强化 学 习 的 第 二 个 知识 点 是 利用 神经 网 络 表 示 回 报 函 数 。 
但 是 神经 网 络 是 强 非 线性 表示 ， 因 此 利用 神经 网 络 表示 回报 函数 引入 了 
很 强 的 模型 复杂 性 。 为 了 解决 这 些 挑战 ， 需 要 引入 两 个 正则 方法 (以 前 
的 正则 方法 比较 简单 ， 基 本 只 是 简单 的 代价 参数 9 的 4 范 数 或 范 数 。 
对 于 高 维 的 非 线性 代价 函数 ， 这 些 正 则 技术 经 常 是 不 充分 的 ) 。 

第 一 个 正则 化 是 惩罚 状态 的 三 阶 导数 : 


Ger = > [Ceo (z1) — co (2:)) — (¢0(a.) — oz 0))]? (11.27) 


AT) Sea» SERT EA DLL» 
第 二 个 正则 化 更 适合 情景 任务 : 


Quono(T) = X [max (0, co (#,) — co (m2) —1)] (11.28) 


11.4 习题 


1.8 [A Rt A LB eT 
2.4] HA I Tr] Se A RRA a A RIER E pee o 


12 组 合 束 上 略 株 度 和 值 函 数 方 法 


本 章 主 要 介绍 组 合 策略 梯度 和 值 函数 方法 的 理论 基础 。L28] 

我 们 知道 ， 强 化 学 习 算法 一 般 可 分 为 值 函 数 的 方法 和 和 直接 案 上 略 搜 索 
的 方法 。 它 们 之 间 有 什么 关系 呢 ? 

根据 策略 梯度 的 理论 ， 策 略 梯度 可 表示 为 


VoJ(r) = EQ” (s,a) Vologr(s,a) (12.1) 


M (12.1) AP, RIAA hE es a SS AATA Ee 
Ro ASE MEN ZAIN, RII SEPP AA hs SRS E 
HIAS EU AA DUR ST RE AILS o 

(1) RRI FE IS TE MUA 

HP LE RMR AS AE IERE, RERRE, KEREP A EY PIG 
re TE SRM BE EP “EU, BY 


Ad x EQ" (s,a) Velogr(s,a) +a EVH" (s) (12.2) 


ser HTC) =- ) m(s,a)logm(s,a) | ERRARE, AS 


MEERKERK. (12.2) SSR UN EE LEB a NE PEK 
7 a) ts 28 De TA a PAE TA To SA IY RRB Ze 
EMRE, BABE RAO A HEHE AG o 

(2) WOR BOTFEWI ASI o 

TREHET” 定义 为 了 Q(s,a) 一 (r(s,a) + yQ(s’,b)) 

TAERVE FT ABARAT, VAR ARR oc Ja eM BI — “NANI R o 


Se, FERS RAMI ATER BUN a8 ER EV CY i BEF m ER 
个 会 再 更 新 。 


ae af O) = EQ” (s,a)Velogm(s,a) +aEV,H"(s) , 同时 随 


机 策略 本 身 需 要 满足 概率 为 1 的 约束 条 件 ， 即 9(0) = 2 7(s,0) 一 1 
， 将 约束 条 件 代入 不 动 点 处 ， 正 则 化 的 梯度 为 零 可 以 得 到 

FO) — 》XVogr) 

= EQ (s,a) Vylogm(s,a) 一 aE Ve P (s,a)logm(s,a) — oy 入 D T(s,a) 


a a 


s,Q 


= EQ" (s,a)Vilogr(s,a) — a E » V,7(s,a)logm(s,a) —a E > T(s,a)Vlogr(s,a) 一 $, À- 3 Vo (s,a) 





= bpQ”™(s,a)Vologn(s,a) -aE Yr(s0) ree logr (s,a) -aE), T(s,0) Vologr(s,0) 一 D To) rae 


T(s,a 


= FQ" (s,a)Vplogr(s,a) —aElogr(s,a)Velogr(s,a) — a EV, logr(s,a) — ÀA E Vilogr (s,a) 


= E (Q"(s,a) —alogr (s,a) — a — à) Vlogr (s,a) 


(12.3) 
其 中 第 3 个 等 式 到 第 4 个 等 式 用 到 了 期 望 的 定义 > ,T(s,a) E , 
由 分 析 知道 ， 在 不 动 点 处 有 


f(0) — X NVog,(r) = E (Q*(s,a) — alogr (s,a) 一 w 一 )Vilogr(s)o) =0 


由 于 Vou DT(s;Q) = Lis) = (s.a) , EREN 
Q” (s,a) — alogr(s,a)—c=0 (12.4) 
其 中 。 
(12.4) 式 展 示 了 行为 值 函数 @"(s,4) 和 策略 7(s,a) 之 间 的 关系 ， 


为 了 消去 常数 c ， 我 们 利用 策略 7(s,a) 在 状态 s 处 采样 ， 并 对 该 状态 处 
的 动作 a 进行 积分 ， 得 到 


\ *(s,a)Q* (s,a) —a) 7n(s,a)logm(s,a) 一 'x(s,a)c(s) =0 (425) 


其 中 : 
> n(s,a)Q" (s,a) =V" (8) 


一 > 1(s,a)log7(s,a) =H" (s) 


(12.5) 式 变 为 


c, = aH" (s) + V7(s) ( 12.6 ) 
将 (12.6) 式 代 回 (12.4) 式 ， 可 以 得 到 
Q"(s,a) =a(logr(s,a) + H"(s)) +V” (s) (12.7) 
或 7(s,a) =exp(A"(s,a) /a — H"(s)) (12.8 ) 
(12.7) 式 和 (12.8) 式 展示 了 动作 值 函数 @" (s,Qa) 与 策略 7(s,Q) 


之 则 的 关系 。 
大 家 可 能 要 问 ， 知 道 两 者 之 则 的 关系 有 什么 用 呢 ? 
答 采 是 : 我 们 可 以 利用 当前 琳 略 来 估计 动作 值 函 数 ， 评 述 如 下 。 
由 (12.7) 式 ， 我 们 可 以 给 出 逼近 动作 值 函 数 的 方法 : 
Q" (s,a) = A" (s,a) 十 Vr(s) =a(logr(s,a) + H*(s)) +V"(s) ( 12.9 ) 


这 时 我 们 再 看 燃 正 则 化 的 案 略 柳 度 更 新 公式 (12.2) sh, FE 
(12.3) 式 的 推导 中 得 到 


EQ"™(s,a)Vologn(s,a) aEVoH"(s) 
= E (Q*(s,a) — alogr (s,a) — a) Velog7(s,a) 


有 常数 偏差 时 ， 更 新 不 变 ， 因 此 (12.2) 式 可 以 写 为 


Abx E (Q*(s,a) — Q"(s,a) ) Vologm(s,a) (12.10) 


BE MAG AY A RHEAN AAMA PR A HS RR 
考虑 优化 问题 : 


minimize E,,(g(s,a) — alogz(s,a))? 


st. X (sa)=1, ses ( 12.11) 
极 值 点 处 的 条 件 为 


E (q(s,a) — alogr (s,a) cs)Vologn(s,a) =0 


若 4(s,Q) =Q*(s,a) ， 则 优化 问题 得 到 的 等 式 和 根据 不 动 点 得 到 
的 等 式 相 同 。 因 此 ， (12.11) 式 可 以 这 样 解 释 : JAS TE UL SES E 
时 ， 在 不 动 点 处 ， 动 作 值 函数 可 以 看 成 是 策略 对 数 的 回归 。 

在 介绍 组 合 策略 梯度 和 值 图 数 算 法 (PGQL ) 之 前 ， 还 需要 解决 的 
问题 是 当 采 用 策略 (12.8) 式 时 ， 动 作 值 函数 是 否 会 收敛 到 最 优 值 ? 

ide SBMA UK ERED MAT Raa 下 降 而 下 降 。 

证 明 

FH (12.8) 式 ， 策 略 T(s,a) 可 以 写成 


__exp(Q™ (so)/a) _ exp (Q™(s,a)/a) _ 
》 exp(Q™(s,b)/a) ` exp(max.Q” (s,c) /a) (12.12) 


Ta (8,4) 


wT AREER, NIUKBREAT Q”™(s,a) —Q™(s,a) 。 


0<T'Q”(s,a) —Q™ (s,a) 
=T Q" (s,a) — T" Q™ (s,a) 


= 5, (max. (s’,c) — > Ta (8’,b)Q™ ce (12.13 ) 


将 (12.12) 式 代 入 (12.13) 式 ， 缩 放 不 等 式 ， 得 到 
7 (s,a) —Q™(s,a) < E, X exp((Q™ (s’,b) —Q”(s’,b')) /x) (max.Q™ (s’,c) —Q™(s’,b)) 


eA f. (x) =xexp(-z/a) , 4x=max,.Q™(s’,c) —Q™(s’,b) 
， 则 不 等 式 变 为 
0 (5,8) = Qs) SEs) fo (x) (12.14) 


AS PR BLS (x) WPT fa (a) < fa (a) =ae ， 原 不 等 式 

(12.14) 变 为 
T Q™(s,a) —Q™(s,a) < |Alae™ (12.15 ) 

AUR TIA CAB, UR Se Fe Bae Oe 的 降低 而 收敛 到 0。 

IRON LA ar, BARRA RS (12.8) SRE ULAR EIA 
NM, TM Qlearning Hy A Er ÆR I R See. PCY DA Rg TE YU AY R 
梯度 方法 和 Qleaming 的 方法 结合 运用 ， 这 就 是 PGQL 算 法 。 

PGQL 学 习 算 法 是 基于 值 冰 数 的 估计 ， 即 (12.9) Ñ, A6 TAE 
则 化 的 案 略 梯度 更 新 和 Qlearmning 的 方法 。 

其 中 Qlearning 的 更 新 是 为 了 减 小 贝尔 曼 残 震 ， 其 更 新 公 陈 为 


Adx E(T'Q"(s,a) — Q" (s,a) )Vologn(s,a), 
Awa E (T°Q"(s,a) —Q"(s,a) )VuV(s) 
FH (12.10) 5 SEU SER EEA 
Abx E (Q” (s,a) — Q” (s,a) ) Vologn(s,a), 
Awa E (Q*(s,a) —Q"(s,a) )VuV (s) 


PGQL 方 法 是 将 两 种 更 新 进行 加 权 组 合 ， 即 
Ax (1—n) E (Q* —Q" )Vologn + nE (T°Q" — Q" )Vologz, 


Awx(1—n) E (Q7 —Q" )V.V(s) + nE (TQ — Q") VaV 
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本 章 分 为 三 个 小 节 ， 其 中 13.1 节 探讨 为 什么 要 提出 值 欠 代 网 络 ， 
13.2 节 阐述 值 迭 代 网 络 模型 。 


13.1 ATA Heh (BIRT 


众所周知 ， 深 上 度 学 习 与 蝇 化 学 习 算 法 结合 所 产生 的 深度 强化 学 习 算 
法 在 很 多 领域 取得 了 突破 性 进展 。 最 早 引 起 大 家 注意 的 是 DeepMind 
队 利用 DQN 算法 挑战 雅 达 利 游戏 ， 得 分 竟然 超过 了 专业 人 类 玩家 OX 
成 为 Google 直 接 以 重金 收购 DeeapMind 团 队 的 原因 之 一 ) ， 该 成 果 2015 
年 在 Nature 发 表 ， 由 此 学 者 们 开始 纷纷 “ 掉 入 “深度 强化 学 习 的 “大 坑 ”。 
我 们 下 面 简 单 介绍 下 DQN。 

我 们 可 以 从 以 下 几 个 角度 理解 DQN 算 法 。 

(1) 第 一 个 角度 : DQN 是 一 个 深度 神经 网 络 ， 如 图 13.1 所 示 。 


Convolution Convolution Fully connected 


= 
=. 
= 
8 
15 
一 
zl 
2 


Lal 出 


bbb déddbdb dood d 









e oe ow 0 9 9 9 9 2 9 0 9 
SD PD ee 9 2 ss 2 9 0 © © 





& 


个 = ra ry N E E 
EE 
BBBBBEBBERREEEEEE 


图 13.1 DQN 网 络 


直观 看 来 ，DQN 是 一 个 深度 神经 网 络 ， 更 确切 地 说 ， 它 是 一 个 由 3 
个 卷 积 层 和 2 个 全 连接 层 组 成 的 深度 神经 网 络 。 它 的 输入 征 图 像 ， 即 洲 
戏 当 前 的 画面 ， 和 输出 是 ”18 个 动作 的 概率 分 布 “游戏 手柄 18 个 动作 的 概 
KE) 。 

(2) 第 二 个 角 撒 : DQN 的 训练 方法 是 强化 学 习 。 

DQN 古 一 个 深度 神经 网 络 ， 我 们 需要 训练 这 个 网 络 ， 以 达到 游戏 
通天 的 目的 。 何 为 训练 ? 了 驶 是 调整 神经 网 络 的 权 值 。 如 何 调 整 神经 网 络 
WIER? 方法 是 强化 学 习 方 法 。 但 是 ， 强 化 学 习 方法 并 非 是 调整 网 络 
权 值 的 唯一 方法 。 如 末 有 挟 够 的 数据 ， 我 们 完全 可 以 利用 监督 学 习 或 者 
模仿 和 芝 习 等 方法 学 习 该 网 络 的 权 值 。 所 以 ， 从 训练 神经 网 络 的 角度 来 
看 ， 强 化 学 习 算法 不 过 是 调整 神经 网 络 权 值 的 一 种 方法 。 运 用 强化 学 习 
方法 调整 DQN 网 络 的 权 值 可 以 参见 第 6 章 。 

事实 上 ， 深 度 神 经 网 络 是 强化 学 习 算 法 一 个 非常 重要 的 组 成 因素 : 
深度 强化 学 习 算 法 本 质 上 就 是 利用 强化 学 习 的 方法 调 优 深 大 神经 网 络 。 

如 采 深 度 神 经 网 络 设 计 得 很 震 ， 残 算 踢 化 学 习 算 法 再 强大 ， 也 无 法 
实现 很 好 的 效果 。 巧 妇 难 为 无 米 之 炊 ， 在 深度 强 化 学 习 算 法 中 ， 深 大 神 
经 网 络 就 是 米 、 融 是 食材 ， 而 强化 学 习 算 法 则 是 巧 妇 、 是 厨 艺 。 只 有 在 
一 个 果 够 好 的 深度 神经 网 络 的 基础 上 ， 强 化 学 习 算 法 才能 将 这 个 网 络 调 
成 一 个 效果 很 好 的 网 络 。 

那么 问题 来 了 ， 什 么 是 一 个 好 的 神经 网 络 ? DQN 是 好 的 神经 网 络 
四 ? 

FZ FH, DOQN PA Ze ATS SRI CR, DTA RES IF FZ 
络 。 但 是 ，Aviv Tamar 等 有 友 现 它 其 实 并 不 是 一 个 好 的 网 络 ， 因 为 已 经 调 
优 的 深度 神经 网 络 很 难 泛 化 到 其 他 的 游戏 中 。 也 就 是 说 ， 访 网 络 并 没有 
学 到 本 质 。 

为 什么 呢 ? 这 主要 是 由 网 络 结构 决定 的 ， 下 面 我 们 做 些 简 单 分 析 。 

DQN 的 网 络 结构 是 前 问 的 多 层 神 经 网 络 ， 这 类 网 络 结构 的 特点 是 
输入 古 状 态 ， 输 出 是 动作 ， 也 束 古 策略 。 它 最 单 应 用 在 识 列 领 域 。 在 现 
有 的 深度 强化 学 习 领 域 ， 大 部 分 的 研 守 都 是 百 接 用 这 种 网 络 结构 表示 货 
略 。Tamar 等 称 ， 这 种 策略 被 称 为 reactive policy XMR) o MF 
面 意思 很 容易 理解 ， 即 给 出 一 个 状态 ， 得 到 一 个 反应 动作 。 从 强化 学 习 


BARR TES RA, IV SUPERS SPSL RRS. Re OI a RY SS 
ELAR GE [a] AS i LE RE AP AR Ta eal, BY SI A oe a Se SY 
ei, VERE RTE BERT IREA, RANAR IFA BE FEA Jia BER 
MS OY 4 AU NS Zo MS ORL, NAAR Ee PY 
网 络 结构 。 

那么 什么 样 的 策略 网 络 是 好 的 菏 略 网 络 呢 ?Tamar 等 作者 给 出 的 答 
re: 具有 规划 能 力 的 策略 网 络 是 好 的 东 略 网 络 。 

所 谓 规 划 束 是 考 谍 后 续 的 回报 。 膛 憾 的 是 ， 目 前 大 部 分 强化 学 习 所 
用 的 深度 网 络 都 是 反应 陈 网 络 ， 缺 少 妓 了 式 的 规划 计算 。 不 过 即便 如 此 ， 
仍然 有 很 多 很 成 功 的 反应 式 网 络 。 细 细 思 考 ， 我 们 会 发 现 这 些 网 络 的 成 
功 其 实 要 归功 于 训练 该 网 络 的 方法 强化 学 习 训 练 方法 。 强 化 学 习 的 
训练 方法 在 训练 网 络 时 (调整 网 络 参数 时 ) 考虑 了 规划 问题 。 不 过 ， 由 
于 网 络 本 里 没有 规划 模块 ， 因 此 在 被 运用 到 新 的 环境 时 ， 大 部 分 痢 需 要 
EHV, atric Lhe RA o 
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经 训练 好 的 规划 模块 规划 新 的 任务 ， 泛 化 能 力 很 咱 。 另 一 方面 ， 对 于 其 
有 规划 模块 的 案 略 网 络 ， 训 练 方法 束 可 以 更 灵活 了， 不 必 像 以 前 那样 依 
赖 强 化 学 习 算 法 。 此 时 ， 我 们 便 可 以 利用 成 训 的 监督 学 习 方法 和 模仿 学 
习 方 法 。 当 然 ， 在 没有 数据 标签 时 仍然 要 利用 强化 学 习 的 训练 方法 。 

为 了 理解 为 什么 规划 是 案 略 中 重要 的 组 成 成 分 ，Tamar 等 举 了 一 个 
网 格 世 界 中 导航 的 例子 ， 如 图 13.2 所 示 。 在 该 例 中 ， 乔 能 体能 够 看 到 整 
个 网 格 地 图 ， 知 道 目 标点 的 位 置 ， 其 任务 是 从 起 始点 无 障碍 地 达到 目标 
人 位置。 人们 所 和 希望 的 是 ， 在 训练 完 一 个 场景 (如 图 13.2 左 边 的 场景 ) 
后 ， 在 男 一 个 场景 (如 图 13.2 右 边 的 场景 ) ARE KRABI ARN 
是 ， 当 采用 基于 CNN WIA RRT, WEK. Tamar 等 分 
析 得 出 的 结论 是 该 网 络 并 没有 理解 行为 的 目标 指引 本 质 。 








图 13.2 网 格 世 界 导 航 问 题 ， 目 标 是 从 起 始点 无 障碍 地 到 达 目 标 位 置 
一 言 概 之 ， 具 有 规划 计算 的 网 络 策略 是 好 的 策略 ， 即 散 入 了 规划 模 
块 的 东 略 网 络 是 好 网 络 。 接 下 来 的 问题 是 : AT BRAM? 


13.2 (EA 28 
Be ins FH AS ei re (EI UA, FASE ZAI SOAS 
的 思想 。 规 划 实 际 强 含 的 是 一 个 优化 问题 。 我 们 在 这 里 所 说 的 规划 是 基 
于 贝尔 又 优化 原理 的 ， 即 
vy 二 max R? +y} Psu" (e) ( 13.1) 
PES 


ETZE, HARR AKM HEARE te aie IAT 
法 。 为 了 表述 方便 ， RIA EM — ERIE, SOA13.3P AN . 


[1 输入 : 状态 转移 概率 Rs 回报 国 数 局 ， 折 扣 因 子 Y 
MICA :v(s)=0 FPGA To 


[2] Repeat l=0.1.... 
[3] for every s do 


几 Mas) = maxRg +y > Pvi(s) 
SIES 
[5] Until vy. = 


[6] 输出 : (s) = argmaxR8 + y 》 Pavils’) 


图 13.3 EARRA 
那么 ， 如 何 将 该 过 代 算法 骸 入 到 一 个 网 络 中 呢 ? 由 于 值 迭 代 的 计算 
过 程 与 CNN 网 络 的 传播 过 程 很 相似 ， 我 们 可 以 利用 CNN 网 络 来 表示 值 
TERE 
我 们 先 看 一 下 值 迭 代 计 算 过 程 与 CNN 网 络 传播 过 程 的 相似 之 处 。 
我 们 看 如 图 13.3 所 示 的 值 迭 代 算 法 。 
在 值 从 代 算法 中 ， 最 关键 的 公式 是 迭代 公式 : 


Ui+1(8) = max R? +Yy >》 ,Ps.v(s’) ( 13.2) 
我 们 可 以 将 迭代 公式 分 成 两 个 步 又 : 
第 一 步 授 历 动作 a， 得 到 不 同 动作 a 所 对 应 的 值 函数 更 新 ， 即 : 


Ur1(5,Q) =R? +y) ,Pavi(s’) (13.3 ) 


第 二 步 遍 历 动作 a， 找 到 最 大 的 Vit1(5, 9) : 
V141(S) 一 max V1+1(S,a) (13.4) 


PACK CNN FRM IZR AE, E RAOR AA Ash (13.3) 48 
当 于 CNN 中 的 卷 积 操作 ， 13.4) 式 相 当 于 池 化 操作 。 从 这 个 意义 上 


BE, AY DARE ELIA FRY LE A CNN DO 265 RA RRE, SE EO 2 
有 规划 计算 的 功能 。 而 与 CNN 略 微 不 同 的 是 ， 和 在 对 值 函 数 进 行 合 积 操作 
的 时 候 ， 偶 移 量 玉 ”对 应 着 每 个 像素 的 偏 移 量 ， 从 CNN 的 角度 来 看 ， 状 


pn 可 以 看 成 是 每 个 点 对 应 的 偏 
。 郑 积 核 的 个 数 等 于 动作 空间 的 维 数 。 值 和 迭代 网 络 如 图 13.4 所 示 。 
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图 13.4 AR 

为 了 完成 值 迭 代 网 络 ， 还 需要 处 理 两 个 部 分 ， 即 值 迭 代 模 块 的 输入 
和 输出 (如 图 13.4 BAW RAV ) 。 值 迭代 模块 的 输入 解决 如 何 把 
观测 值 经 过 加 工 变 成 值 和 迭代 模块 的 输入 ;， 值 运 代 模块 的 输出 解决 如 何 将 
IERIE E AE R RRA EI R P a E o 

(1) (EISEN ELA 
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图 13.5 EERE SA 
以 网 格 世 界 导 般 为 例 ， 输 入 的 是 对 系统 的 观测 ， 像 当前 地 图 、 目 标 
点 的 位 置 ， 镶 能 体 当 前 的 位 置 。 论 文 指出 ， 观 测 可 以 通过 简单 的 映射 将 
图 像 映射 成 回报 图 ， 比 如 目标 位 置 对 应 独 高 回报 ， 障 三 物 的 区 域 对 应 春 
仙 回 报 。 该 过程 可 以 利用 一 层 苍 积 操作 来 实现 。 
(2) 值 迭 代 模 块 输出 的 移入 。 
值 达 代 模块 输出 的 舱 入 过 程 如 图 13.6 所 示 。 





图 13.6 (eR CER h FY Bk AE 
ELEERI COREL CNN WARK RIIET pee K 
数 。 那 么 如 何 利用 最 优 值 函数 呢 ? 从 第 3 草 可 知 ， 在 已 知 最 优 值 函数 的 
情况 下 ， 最 优生 略为 


m (s) =arg max, R(s,a) 十 YY >》 P(s's,a)V*(s’) 


注意 状态 s 处 的 策略 只 和 它 相 邻 的 邻 域 的 值 函 数 Y_ G) 有 关 ， 因 此 
在 设计 状态 s 处 的 值 函数 时 ， 我 们 只 用 了 最 优 值 函数 Y ”的 一 个 子 区 域 。 

在 深度 学 习 领 域 ， 当 给 定 的 标 俭 只 与 输入 特征 的 一 个 局 部 相关 时 ， 
我 们 称 之 为 注意 力 (attention〉 机 制 ， 从 上 面 已 知 最 优 值 函 数 求解 最 优 
案 略 的 公式 我 们 可 以 看 到 ， 状 态 s 处 的 最 优 东 上 略 只 与 状态 s 局 部 的 值 疯 数 
有 天 ， 因 此 值 从 代 网 络 在 值 迭 代 模 块 后 跟 了 一 个 attention 网 络 ， 最 简单 
的 attention 栅 制 瓯 是 取 当 前 状态 的 邻 域 。 

(EARP ZS VIZ BA DOR AR AL) 方法 也 可 以 采用 强化 
学 习 (RL) 方法 。 模 念 学 习 束 是 利用 专家 数据 对 网 络 参 数 进行 训练 。 
针对 网 格 世 界 的 导航 任务 ， 专 家 数据 可 以 来 和 目 传统 的 规划 算法 ， 比 如 
Dijkstra 算 法 或 A* 算 法 。 


14 基于 模型 的 强化 学 习 方 法 : PILCO 及 其 扩 - 
展 


14.1 概述 


本 章 继 续 同 大 家 介绍 基于 模型 的 踢 化 学 习 ， 第 3 草 和 第 10 重 己 介 绍 
部 分 基于 模型 的 方法 ， 其 他 章节 介绍 的 均 是 无 模型 的 强化 学 习 方 法 。 我 
们 简单 比较 一 下 基于 模型 和 基于 无 模型 两 种 方法 的 优 缺 点 。 

1. 基 于 无 模型 的 强化 学 习 方法 

无 醒 开 强 化 学 习 方 法 最 大 的 优势 是 通用 : 一 种 算法 可 以 适用 于 很 多 
领域 。 由 于 无 需 建 并 模型 ， 乔 能 体 所 有 的 决策 都 是 退 过 与 环境 交互 得 到 
的 ， 所 以 这 种 方法 适用 于 很 难 建 模 或 者 根本 无 法 建 模 的 场景 ， 如 游戏 、 
目 然 语言 处 理 等 。 

同样 ， 由 于 没有 模型 ， 和 鲁能 体 束 需要 不 断 地 与 环境 交互 、 探 标 坏 
境 ， 需 要 大 量 试 错 。 这 也 导 色 无 模型 强化 学 习 算 法 的 最 大 缺点 : 数据 效 
率 不 局 。 这 种 算法 往往 需要 与 环境 交互 几 十 万 次 、 儿 日 万 次 甚至 是 千 万 
次 。 从 这 个 意义 上 来 说 ， 无 模型 强化 学 习 算 法 类 似 于 骏 力 搜索 一 一 只 不 
过 它 是 有 乔 意 的 其 力 搜索 。 此 外 ， 基 于 无 模型 的 强化 学习 算法 并 不 具有 
沁 化 能 力 ， 尤 其 是 当 环 境 和 任务 友 生 变化 后 ， 忽 能 体 需 要 重新 探索 。 

2. 基 于 模型 的 强化 学 习 方 法 

基于 模型 的 强化 学 习 方 法 退 第 是 指 完 从 数据 中 和 学习 模型 ,于 基 于 模 
型 来 优化 东 略 。 在 模型 完全 已 知 的 情况 下 ， 这 束 转 化 成 最 优 控 制 问 题 。 
从 数据 中 学 习 模 型 的 本 质 其 实 是 近 局 数据 的 利用 效率 。 为 什么 这 么 说 ? 
因为 利用 已 有 的 数据 学 到 系统 的 模型 后 ， 利 用 该 柑 型 束 可 以 预测 其 他 未 
知 状态 处 的 值 。 而 无 模型 的 强化 学 习 只 能 依 徘 答 试 ， 与 环境 交互 得 到 其 
他 未 知 状态 的 值 。 相 比 之 下 ， 基 于 模型 的 强化 学 习 方 法 并 不 需要 答 试 太 
多 次 ， 往 往 具 有 比较 强 的 泛 化 能 力 ， 能 够 极 大 捉 高 数据 利用 率 。 因 为 完 
成 训练 后 ， 鲁 能 体 便 学 到 了 一 个 比较 好 的 拉 述 系统 的 模型 ， 即 便 外 界 环 
境 变 化 ， 大 部 分 情况 下 系统 目 身 的 模型 是 不 变 的 ， 相 当 于 鲁能 体 学 到 了 
一 些 通用 的 东西 〈《 即 系统 本 吴 的 模型 ) ， 在 新 的 环境 里 ， 智 能 体 可 以 依 





徘 学 到 的 模型 去 做 推理 。 但 是 ， 由 于 很 多 情况 下 系统 无 法 建 模 ， 如 游戏 
或 者 目 然 语言 处 理 等 ， 这 束 限 制 了 基于 模型 的 强化 学 习 算 法 的 使 用 。 但 
古 在 有 模型 的 系统 中 (比如 机 右 人 系统 的 运动 )， 可 以 适用 此 方法 。 机 
全 人 系统 的 运动 傈 合 最 基本 的 物理 定律 ， 可 以 利用 友 展 起 来 的 刚体 、 尘 
体 等 动力 学 原理 对 这 些 系统 建 借 。 所 以 ， 这 类 问题 比较 适合 基于 模型 的 
强化 学 习 方 法 〔 当 然 也 可 以 用 无 模型 的 强化 学 习 方法 如 DDPG 人 解决 ) 。 

基于 模型 的 强化 学 习 方 法 直到 的 最 大 的 挑战 是 模型 误 和 在。 基于 模型 
的 强化 学 习 方 法 的 一 个 缺点 是 通过 数据 学 习 的 模型 存在 模型 误 才 。 尤 其 
是 在 刚 开始 训练 、 数 据 量 很 少 的 情况 下 ， 所 学 到 的 模型 必定 不 准确 。 运 
用 不 准确 的 模型 预 训 便 会 产生 更 大 的 误 短 。 针 对 此 类 问题 ， 业 界 提 出 了 
PILCO (probabilistic inference for learning control) Yk, EEA Re 
2h ASI, AR Fe VIZ LR BI LP EY VA a SL BFE 
典型 非 线 性 系统 的 稳定 性 控制 ， 而 对 于 同样 的 问题 ， 基 于 无 模型 的 强化 
学 习 则 需要 训练 上 万 次 。 

PILCO 的 成 功 关 键 在 于 : 生 解决 醒 型 侦 委 的 方法 不 是 集中 于 一 个 单 
狸 的 动力 学 模型 ， 而 是 建立 了 概率 动力 学 模型 ， 即 动力 学 模型 上 的 分 
布 。 即 PILCO 建立 的 模型 并 不 是 具体 的 某 个 确定 性 函数 ， 而 是 建立 一 
个 可 以 摘 述 一 切 可 行 模型 〈《 所 有 通过 已 知 训练 数据 的 模型 ) 上 的 概率 分 
布 。 访 概率 模型 有 两 个 目的 : 

第 一 ， 它 表达 和 表示 了 学习 到 的 动力 学 模型 的 不 确定 性 ; 

第 二 ， 模 型 不 确定 性 被 集成 到 长 期 的 规划 和 决 傈 中。 

下 面 我 们 详细 介绍 PILCO 算 法 。 


14.2 PILCO 


1.PILCO 算 法 的 推导 
如 图 14.1 所 示 为 PILCO 算 法 的 层次 结构 图 。 


top layer: policy optimization /learning T* 


bottom layer: learning the transition dynamics f 


图 14.1 PILCO 算 法 
从 图 中 可 以 看 出 ， 访 算法 可 以 分 为 以 下 三 层 。 
RR: 学 习 一 个 状态 转移 的 概 认 模型 ; 
中 间 层 : 利用 状态 转移 的 概率 模型 和 沉 略 站 ， 预 测 在 策略 F, 
后 续 的 状态 分 布 p(T0),p (21), ,p (Zr) ， 利 用 


V"(@) = >> / (z) p(x) da. 对 策略 进行 评估 : 


顶层 : 在 顶层 利用 基于 局 度 的 方法 对 宋 略 站 的 参数 进行 更 新 。 
如 图 14.2 所 示 为 PILCO 算 法 的 伪 代 码 。 
Algorithm 1 PILCO 


1: set policy to random > policy initialization 
2: loop 
3: execute policy > interaction 
4 record collected experience 
5: learn probabilistic dynamics model > bottom layer 
6 — loop > policy search 
7: simulate system with policy 7 > intermediate layer 
8 compute expected long-term cost V”, eq. (3.2) > policy evaluation 
9 improve policy > top layer 
10: end loop 
11: end loop 

图 14.2 PILCO 算 法 伪 代 码 


下 和 面 我 们 对 PILCO 的 每 一 层 做 详细 的 推导 。 
(1) 底层 : 学 习 转 移 概率 模型 。 


PILCO 算 法 用 的 概率 模型 是 高 斯 过 程 模型 。 假 设 动力 学 系统 可 以 由 
下 列 公 式 描 述 : 
Vt 一 Fl. i 
PILCO 的 概率 模型 并 不 直接 对 该 模型 建 模 ， 而 是 引入 一 个 差分 变量 
A; ’ 通过 如 下 变换 : 


A,=2,—%:_1+€ (14.1 ) 
KA 符合 高 斯 分 布 ， 则 2 也 符合 高 斯 分 布 : 
D(ZiD iW) =N (aie, De) (14.2) 
其 中 均值 : 
hi = zit By [Ay] (14.3 ) 


令 7 = (ZU) ，PILCO 动 力学 概率 模型 学 习 的 是 输入 zx 和 输出 之 间 


的 拟 合 天 系 。 与 直接 学 习 函 数值 相 比 ， 学 习 差 分 更 有 优势 。 因 为 相 比 原 
来 的 函数 ， 它 们 的 变化 很 少 。 和 学 习 友 分 Ax 近似 于 和 学习 函数 的 梯度 。 


训练 数据 集 为 D: = {X:s [p] = [Aa An) } 
， 人 A(z) =f(z) 十 = ， 定 义 /(z) 之 间 的 协 方差 矩阵 为 核 函 数 ， 
cov (E)E) =e- -aG z) 
则 输出 之 间 的 协 方差 矩阵 为 
cov(A(z),A(z’)) =cov f(x) +e,f(2’) +e) 
=cov(f(x),f(x’)) + cov(e,e) 


=k(2,0’) +021 


ray oT ee PUM ze 29 FE VIR AES 

oe er [£1,: | ) 4/ . — = = [Ap ° ,A,]7 } 和 测试 点 》 求 出 
在 测试 点 Z* 时 的 预测 值 人 A(z*) 。 

局 斯 过 程 回 归 古 在 函数 空间 上 建 模 ， 利 用 后 验 公 式 对 预测 值 进 行 推 
理 得 到 。 用 在 此 处 即 为 P( 人 (2)|,y) 。 

根据 已 知 条件 ， 我 们 可 以 得 到 输入 y 和 预测 值 人 (2*) 的 联合 概率 分 


布 。 由 于 输入 部 是 蜗 斯 分 布 ， 因 此 其 联合 概率 分 布 也 是 噩 斯 的 ;， 义 由 于 
I aa 因此 输入 数据 的 先 验 均值 为 和 零 ， 输 出 的 均值 也 为 


E, 令 


fu: =k(X,ax), ker =k(a-,0«), 6: = (K +021) 4y, Ky=k(2,,2,) 
， 则 联合 高 斯 分 布 为 


Frayed ti E k 


RE ZB OD AB Do Ze EB YO HE AY 
li kx |= | Wy 0 | 


kT ke ee kee — kT (K +021) "kh. 
0 1 
AI KD Ty Fe FB BS 
Kir | = allied oe 0 | 
kr kal l0 1 0 (ke —kT(K +02) 1k) 7 


oD) 
-k7 (K +02)* 1 
根据 高 斯 分 布 公式 有 


beo b [et lael ol 


j ae 7 | hora sean? 


“lai 
p ke ~— ka | 民风 


= (A(x) — k? (K +021) ty)" (ke — k? (K +022) ths)? 
(A(z) — k? (K +021) y) 
由 联合 概率 分 布 公式 : py, A()) = p(A(r)ly) p(y) 


根据 高 斯 分 布 和 联合 概率 分 布 的 对 应 天 系 ， 我 们 得 到 后 验 概 率 分 布 
IRAAN P tes ta} Ai: 


p(A(ax)|y)~N (k? (K +021) y, kee — k? (K +021) hk:) 
BẸ 


A(T 


m,(x+) =E; [A] =k? (K +021) y =k? p 
of (Ax) — VaT? [A+] = ka 一 js (K +021) a 


C2) 中间 层 ， 对 长 期 预 负 进行 近似 推 靳 。 
这 一 层 有 的 目的 十 实现 案 略 评 佰 ， 即 计算 


(14.4) 


Ya) = Y | ela pada, 。 因 为 我 们 已 经 通过 撒 层 算法 学 到 了 概 
t=O 


率 动力 学 模型 ， 因 此 值 函 数 的 计算 可 以 利用 该 模型 ， 不 再 需要 与 环境 交 
ae 
值 函 数 的 计算 公式 为 


V" (a) => J ont (145) 


Epea) 为 人 为 给 定 的 奖励 函数 ， 若 要 计算 初始 状态 的 值 函数 ， 
需要 计算 后 继 每 个 状态 XZ1，,… ,Yr 的 概率 分 布 p(7X2D), t=1,--,T. 

如 何 计算 这 个 概率 分 布 呢 ?运用 展 层 学 到 的 融 斯 回归 模型 ! 

首先 我 们 来 看 当前 步 的 概率 分 布 : 


p(z) = || plete la t=1, =T (14.6) 


通过 分 析 方 程 (14.6) , HTH p) 我 们 需要 知道 : 

Dp(ziZ Du ，P(Wilz-1)，pP(z1-1) ， 这 注定 是 一 个 递 推 的 
算法 。 因 为 第 t 步 的 状态 概率 分 布 Z(Zz) 的 计算 ， 需 要 用 到 前 一 步 即 tl 
步 的 概率 分 布 Z(Z-2 o AA, RIRKA Epa), plar) 。 

pluie) 的 计算 和 要 评估 的 策略 有 关 。 一 般 会 将 策略 参数 化 为 
Ti-1 WRR KAT- 是 随机 变量 ， 而 W-1 ÆT 的 函数 ， 所 以 
p (u11) 的 分 布 可 由 D(z, 1) 计算 得 到 。 

ET Pou) ”， 便 可 以 通过 底层 学 到 的 高 斯 回归 模型 计算 
P(A.) 的 概率 分 布 ， 再 根据 公式 (14.1) 和 14.2) 得 到 p(zi) 。 

Ja ARRAS Ce 概 京 分 布 的 计算 可 分 成 四 个 阶段 ， 如 图 14.3 所 示 。 


P(X+t-1) state distribution at time t — 1 


P 
p(ut—1) = P(Umax Sin(7(xX4_1))) control distribution at time t — 1 
2. 
P(Xt—1, Ut—-1) joint distribution of state and control at time t — 1 
S 
p( Ax;_1) predictive distribution of the change in state 
4. 
p(x) state distribution at time t (via dynamics GP) 


图 14.3 后 继 状 态 概 率 分 布 的 计算 
DARASA pE) 计算 动作 分 布 P(r(z, -iD)) 。 
在 开始 计算 P(r(z,-D)) 之 前 ,我们 先 看 策略 T(z*) 。 策 略 是 状态 
的 函数 ， 如 策略 是 状态 的 线性 表示 。 ot (ae) 二 Wr; ty, HPY 是 一 个 
参数 阵 ，v 是 一 个 偏 移 向 量 。 
定义 x (ae) 为 初步 策略 ， 若 z+~N (wd) ， 则 初步 策略 也 为 高 斯 分 
布 ， 其 均值 和 协 方差 为 
E, [7 (z+) | = Pu +v 
~ (14.7) 
COV ». | (z) | =P y" 
实际 策略 以 二 7(z*) 往往 是 有 约束 的 ， 比 如 移动 机 器 人 的 最 大 运动 
速度 是 有 限制 的 。 令 WE [Umax Umax] ， 利 用 正弦 函数 将 初步 策略 限制 
到 范围 内 ， 得 


T(Z) = Umax sin (x (x) ) E |- Umax, Umax | 


补充 完 策略 的 基本 知识 ， 我 们 再 来 看 p(T(7zt_1))”。 从 策略 参数 化 
和 约束 的 过 程 ， 我 们 知道 案 略 分 布 的 计算 分 成 以 下 两 步 。 


Step 1: 计算 初步 策略 4 Sti p(n (x, .)) ， 线 性 化 策略 可 由 (14.7) 


式 计 算得 出 ; 
Step 2: 考虑 到 实际 傈 上 略 的 约束 函数 ， 计 算 人 上 略 分 布 的 珊 斯 过 近 


o(r(2:_-1)) = p( wasssin (x («,-1))) 


2) 计算 联合 概率 分 布 D(Z，_ De 1) 一 Bp o 
直接 计算 zi-1 与 -1 的 联合 概率 分 布 比较 困难 ， 也 可 分 为 两 步 完 


Step 1: 计算 p (zt_ 7 (a1) 

Step 2: 计算 联合 概率 分 布 : 

eade] var (z, 1) om 
TA ulu, 1) eovGw sz var(w_ 1) 
KP ulu) 和 var(w_1) 已 经 在 上 个 阶段 计算 得 到 。 还 未 计算 出 


来 的 量 是 COV (Br tH:—1) o 


我 们 给 出 其 计算 公式 : 
mi py - A r 
COV [Ei1; U1] =cov|z,-1,7 |cov| 7 (Ei) (2-1) | cov| 7 (Du (14.8 ) 
ee 1m | 由 step1 计算 得 到 ，cov [7(z_1),7(z_1)| 在 


一 阶段 计算 得 到 ， cov| 7 (zw :| 由 随机 变量 和 其 正弦 函数 的 协 


Ti AW AAG ll 
下 面 我 们 给 出 (14.8) 式 的 证 明 。 
证 明 


补充 去 相关 操作 : 


从 1 、 
wX = | y ) 服从 n 元 联合 Gauss 分 布 ， 设 变换 为 


2 


Yi\ (I A XxX} pe AEE 
y= = F r) x | 使 得 六 AY 的 互 协 方差 为 0， 则 有 


0= E| (Y, — EY.) (Y> — BY5)* | 
= E| (X; EX;,) (X> EX,) * | 十 五 [4(Xs — EX3) (Xə EX,) * | 
= cov (X,,X2) + Acov (X>, Xə) 
由 上 式 得 到 
A=-cov(Xi,X,)covu(X,,X,) 
补充 完 去 相关 操作 后 ， 我 们 正式 进入 〈14.8) 式 的 证 明 。 
对 | aya] 施加 去 相关 操作 变 为 
[z1 — cov[z wr lcov| m (ze Dr (21-1) | Tv DT (aes) | 
{HSL ee [A] Bt 
Ti- 1— cov| 2,1, | cov] m (ve Rm) | (ara) 5 (@,-1) 是 独 
SEAN 6 Mi= Woorsin(T (ay1)) ， 所 以 


Ly, —1 — COV ra COV I (x,-1),7 (x,_1) | 7 7 (24-1) U1 相互 


MZ, DTA, Bl 


MN 


N N -] ~ 
COV C= — COV (tT COV 7 (2-1), (2-1) | n C0 


= COV (zi_1),WU 1) — COV s,m | COV 7 (zi (21) | “cov (x CA 
= 

由 此 得 到 

COV (zw) = cov |2; -1y7 [oov |r (a1), (a1) | cov (a (ay -1),t4-1) 

证 明 完 毕 。 

© 计算 输出 分 布 PLA) 。 

经 过 上 面 中 和 凶 阶 段 ， 我 们 得 到 了 高 斯 回归 概 计 模 型 的 输入 分 布 
DZ Du- ， 这 一 步 是 已 知 输 入 分 布 的 情况 下 计算 输出 分 布 ZP(A) 。 
输出 分 布 是 多 变量 预测 问题 ， 我 们 也 分 成 两 步 解 决 。 

Step 1: 单 变量 预测 问题 

BAAM -N (um) ER2, y ER ， 则 单 变 量 预测 输出 也 是 
一 个 高 斯 分 布 ， 预 测 单 变量 输出 均值 为 














[x = J h(x) p(h,z-)d(h,£-) = E.. n [h (2), £] = E, [Er [h (as)|ae]|u, £] 
应 用 到 (14.4) 式 得 到 
px = BE, (M, (as) |, £] = |m, (z) N (zu, X) da = BT g (14.9) 


其 中 


d 一 [qqn] ER” 
a= | hls) NG E)n 


WM h ERRETAN 


o? = var, n[h(z)lu, £] = J (h(a+) — E» h(t) )” p(ae,h)d (ae,h) 


= f (f (oer e Ee ee 


= E,,(E,(((h(as)|a) — Enh (2:))’)) (14.10) 
= E,,(E,(((h(e ei E, (h(a-)|x+) + Er (h(as)|ae) — Eh (as))”)) 
(var, [h(a+)|a+]) + Es. |En (h(a+)|a+) — E» En (h(a) ae) | 
(var, [h(2«)|a«]) + var, |E, (h(a+)|2«) | 

2. (0% (2 hs en [m (a+) *|u,] — Es. [mp (2u, >] 
应 用 到 预测 多 变量 输出 时 ， 输 出 多 变量 均值 为 

uu, © = [Bi q, Bede] * (14.11) 


其 中 每 一 项 由 (14.9) 式 给 出 。 
多 变量 预测 输出 的 协 方差 矩阵 为 


VAT, 


Tx 


=f 
=f, 
=f 


vary. Ai, 5] cov [hi help, X] 
E(u, = 3 加 z (14.12) 
COV ph, x. [hey hy |p, X] jii Val}, z [helu X] 
其 中 对 角 线 上 的 方 震 由 公式 (14.10) 得 到 。 
现在 推导 非 对 角 线 上 的 协 方志 : 
coVj [ha, Me |, ] = Era lha hy |u, E] — Ha Ho ( 14.13 ) 


Hops, iy 由 如 下 均值 公式 得 到 : 
Bs [hg hiu, X] = En lEn [hala] En hile], £] = | mi (as) ms (zx) p(t) da (14.14) 


D 计算 后 继 分 布 。 


第 三 阶段 已 经 计算 了 高 斯 过 程 预测 输出 分 布 ZUA) ， 后 继 状 态 Z 与 
输出 分 布 之 间 的 关系 由 (14.1) Ah, PAS t tte ”。 后 继 分 
AUTH ARM toa, FLAT AeA 

Hi: = Hi-1t Ma 
we =b + Va + cov[z,_1,A;] +cov[A,, Tti] 

其 中 %。 AS nD, MOR a, MEAT 

Nea Fo ZA A, A A eh A R o 
cov (zx,h (zx)) = En. ,[a«h(ax)* ] — En [a+] En. [h (2) | 
= E, nlth (ae) | — Ha pë 


E,,..n,[ hq (2)|p, £] = En. [24 Er, [ha (rolzlp, 2] = J TMp (z+) p(z») dz 


经 过 人 一 四 四 个 步 又， 我 们 得 到 后 继 状 态 w 的 分 布 P(Z!) , K 
plr) 作为 输入 再 计算 P(Zi+u 的 状态 分 布 ， 以 此 类 推 ， 计 算得 到 所 有 
EREK p), pEr) 。 最 后 计算 策略 评估 时 ， 要 将 所 有 的 状 
态 分 布 乘 以 相应 的 回报 函数 昧 加 起 来 。 即 全 函数 为 


V" (a) => J wedi ln 


(3) 顶层 : 策略 更 新 
TMS BE aT ACF 2 FB PSE MA BR TZ, SRM AA H RERA IE Be 
HEB Ga, Bee Bae TRI KEIR ME BL, ES 


m Earg minV™ (zo) 
mEI 


KELU 为 所 有 参数 空间 所 对 应 的 策略 空间 。 


PTE KAT AS ek RAHI SBA is PE: 


in (a 





-54 qg Eele Ele, 


由 于 ZX 服从 高 斯 分 布 ， 因 此 策略 参数 在 高 斯 分 布 的 均值 和 协 方 
Ah, RIJE: 


E, Lc(z)] = (= E, [c («)1) 2 Pe. +{ T E, lc (2)]) Th 








当 给 定 ctz) 后， 可 以 解析 得 到 已 Pole(@)] Al gy Ele) 
下 面 重点 关注 A 
i dy a 


ile TA, SR eee A ee 与 上 一 步 的 均值 -1 


MTT He 以 及 当前 步 的 策略 参数 几 有关。 因此 对 参数 的 导数 可 以 
BN 














dh: _ Ô hh dhi O h: 2 1 $ OW: 
dp Om. dy O2 -1 dy Ow 
dds; o Od, di_1 rs pe dinat 4 Os; 
dy 7 Ou,-1 dw O2 1 dy Ow 





























该 计算 式 其 实 是 个 选 代 计算 ， 将 前 一 步 的 梯度 < ， et 代 
入 当前 步 梯度 的 计算 


除 此 之 外 ， 束 镜 下 如 何 计算 当前 步 的 均值 和 协 方正 对 参数 的 仿 导 数 
O Ly Ado 1 


Op Pay 














从 当前 步 的 均值 预测 我 们 得 到 


lem pip F Ea MAR | 。 其 中 we = m (21) = tax Sin (7 (17,-1,%) ) 


OL; Pap OF, uf [LAz jj 





OY Ay) 
Op (m(a:-1)) Op (7 ()) Ow 


f Of(a) Op(a) _ Of(a) OE(a) , Of(a) Ocov[al 
“> Op(a) OW Ela] Ow Ocov{a] Ow 


Op 网 
BJ 可 以 得 到 当前 步 的 梯度 。 

最 后 将 所 有 步 的 梯度 相 加 就 是 值 函数 对 参数 的 梯度 ， 再 利用 共 罗 梯 
度 法 或 随机 梯度 下 降 法 得 到 相应 的 更 新 步 ， 

以 上 是 PILCO 推 导 的 所 有 关键 步 桑 。 























将 充 链 去 规则 代入 上 面 的 


14.3 滤波 PILCO 和 探索 PILCO 


本 节 我 们 介绍 PILCO 的 扩展 算法 。 可 能 有 同学 会 问 : 为 什么 要 花 
那么 大 气力 来 介绍 PILCO 及 其 扩展 算法 ? 我 先 给 个 数据 大 家 体会 一 下 。 

对 于 小 车 倒立 摆 系 统 ，PILCO 方 法 只 需要 7 到 8 个 episode， 即 7 到 8 次 
答 试 允 能 使 访 系 统 稳定 。 而 其 他 的 强化 学 习 方 法 ，ddpg 需 要 2500 个 
episodes, BU 2500/xK22ix. Rowan McAllister 在 论文 中 的 数据 图 (如 图 
14.4 所 示 )〉 为 


— Filo 
— Deep PILCO 





i 

10° PILCO 10° as Gu et al. (2016) 10° Lillicrap et al. (2016) 

图 14.4 不 同 强化 学 习 算 法 比较 

可 以 看 出 ， 和 其 他 强化 学 习 算 法 相 比 ，PILCO 有 具有 无 可 匹敌 的 数据 
效率 (data efficient， 知 能 体 与 环境 交互 的 次 数 ) 。 

PILCO 是 售 还 可 以 继续 改善 呢 ? 

答案 是 肯定 的 。Rowan McAllister 从 以 下 三 个 方面 分 析 了 PILCO 并 
所 出 了 改善 方法 。 

第 一 ，PILCO 算 法 假设 了 状态 完全 可 观 ， 可 测 ， 不 存在 测量 误差 。 
然而 ， 在 实际 中 状态 并 非 完 全 可 观 的 ， 而 且 观 测 值 存 在 噪声 。 
McAllister 将 滤波 器 引入 到 PILCO 算 法 的 执行 步 和 预测 步 ， 实 现 了 
POMDP 问 题 中 的 PILCO 算 法 。 

第 二 ， 在 介 略 改善 步 ，PILCO 利 用 优化 方法 最 小 化 昧 积 代价 函数 的 
均值 得 到 新 的 参数 。 这 样 得 到 的 新 参数 其 实 只 有 “exploitation”， 而 没 
H “exploration”. WA Swe, WINER Sie SS Sami, KAS 
ERW AS AN RE Eo AL OR A RS ATT CEPR ZR ee R AE 
R ST RFS 4 BW Be I EPR ZR AR A ee. GRR AY OR eA 
jee-greedy Ris, BU DOKI WRK SA TLRS, DIS ROR AL 
MORES. re PGE DLER AR RE, TRA WORIFA AS GEAR OL 
率 ，Rowan 提 出 基于 贝 叶 斯 优化 (BOWIE) 的 有 问 探 索 方法 。 

第 三 ，PILCO 算 法 一 直 被 诉 病 和 攻击 的 弱点 是 其 模型 计算 复杂 上 度 随 
着 观测 状态 的 维 数 指 数 增 长 ， 因 此 难以 应 用 到 高 维 的 系统 中 ， 所 以 
PILCO ”算法 也 只 能 在 小 车 倒立 摆 这 种 简单 的 系统 中 做 实验 。 要 扩展 ， 


一 一 


ME! (A PILCOM ATER A Sie, BED BEEPILCOMPLRM REA T 
来 并 去 除 其 缺点 呢 ? 

Rowan 分 析 ， 导 致 PILCO 算法 计算 复杂 度 随 着 观测 状态 维 数 指数 
增长 的 原因 是 模型 拟 合 时 采用 了 噩 斯 过 程 回 归 模 型 ， 这 个 模型 能 不 能 换 
H? 别 态 了 ，PILCO 效 果 好 ， 主 要 归功 于 高 斯 过 程 模 型 。 真 是 应 了 那 句 
话 ， 成 也 肃 何 败 肃 何 ， 高 斯 回归 模型 承 是 这 里 的 肃 何 ，PILCO 吏 是 苦 
信 。 

any Hes PILCO 中 的 高 斯 回归 模型 ? Rowan 似乎 力不从心 。 但 
是 ， 别 筷 了 他 是 剑桥 大 学 的 学 生 ， 更 别 筷 了 他 在 剑桥 大 学 的 机 器 学 习 组 
(大 神 zoubin 组 ) ， 这 里 大 神 云 集 。 对 于 这 个 问题 作者 Rowan 联 合 了 组 
里 的 深度 学 习 大 牛 Yarin Gal 一 起 解决 ， 提 出 利用 贝 叶 斯 神经 网 络 蔡 换 高 
斯 过 程 模型 ， 解 决 维 数 灾难 的 问题 。 至 于 如 何 解 决 ， 我 们 在 下 一 节 介 


绍 。 


14.3.1 滤波 PILCO 算 法 


如 儿 14.5 所 示 为 PILCO 算 法 的 概率 图 摘 述 ， 其 中 灰 撒 圆 奖 表 示 可 观 
的 随机 变量 ， 日 压 圆 图表 示 未 知 的 随机 变量 。 从 中 可 以 看 出 ，PILCO 的 
预测 和 规划 都 是 在 状态 空间 中 进行 的 。 但 一 旦 把 传 感 需 噪音 考虑 进来 ， 
便 无 法 得 到 真实 的 状态 量 ， 只 能 通过 传感器 的 值 〈 滤 波 的 方法 ) 来 估 


| O 
f 


/rl : 


: © 


图 14.5 PILCO 概 率 图 描述 
如 图 14.6 所 示 为 带 有 滤波 的 PILCO 概 率 描述 图 ， 其 中 灰 底 圆圈 代表 
可 观测 的 随机 变量 ， 白 撒 圆 较 表 示 未 知 随机 变量 。 





图 14.6 带 有 滤波 的 PILCO 概 率 图 描述 


与 PILCO 不 同 ， 带 有 噪声 的 系统 的 真实 状态 空间 是 未 知 的 ， 只 能 
通过 观 训 值得 到 状态 空间 的 年 信 空 间 。 预 训 和 规划 都 在 置信 空间 中 进 


Jo 


带 有 滤波 的 PILCO 算 法 与 如 图 14.7 所 示 的 原 PILCO 算 法 伪 代 码 相 
同 。 不 同 的 地 方 在 第 8 行 ( 图 14.7) 和 第 5 行 。 第 8 行 是 执行 相 ， 第 5 行 是 
仿真 相 。 这 两 行 都 需要 利用 滤波 算法 ， 下 面 分 别 曾 述 。 


Algorithm 1 PILCO 
1: Define controller’s functional form: 7 : X; X Y — tr. 
2: Execute system with random controls one episode to generate initial data. 
3: for episode e = | to E do 
4: Learn dynamics model p(f). 
5: Simulate state trajectories from p(Xo) to p(Xr) using 7. 
6: Evaluate controller: J(Xo.7.w) = va? &, ĉ& = Ex [cost(X )|y]. 
7: Improve controller: y + argminy cy/(Y). 
8: Execute system, record data: Xe = [Xo0:7_1,U0:T_1), Ye =X 1-7- 
9: end for 


N 


如 图 14.7 PILCO 伪 代码 
(1) 第 8 行 (执行 相 ) 。 
当 使 用 一 个 实际 的 滤波 器 时 ， 它 假设 已 知 三 个 信息 : 


Mat—15 Vije—15 Yt 


JEW ae HAE H PE Si ee SET OF PS SS i TI A GT E o 


eve AS BRL 

所 谓 滤波 器 ， 本 质 上 是 对 先 验 预测 By_1~N (mtn Vya) 和 后 验 
观测 似 然 率 进行 加 权 求 和 。 

(BC LM PBA Ye = Yi 十 ef ， 则 观测 似 然 率 为 
pY) 二 N(xi,;)， 滤 波 器 的 输出 为 D4:~N (ms Vi) ， 其 中 ， 均 值 
为 mt 三 Wm My- Wyte, 方差 为 Vat 二 Wm Vu-1 ， 权 重 阵 为 


Wn = Da, (1 十 Xs ) 7 
W, = Vai (Varı =f vy) i 


FE ill as RISEN Ui = T (mua, Y) o 


执行 时 控制 不 是 随机 的 ， 而 是 一 个 确定 的 数 。 但 是 ， 随 机 数 和 确 
定 的 数 仍然 可 以 与 成 一 个 联合 分 布 ， 其 表示 为 


i b | isd m | Sep Vi 0 
a [a (an | 
o JE YX as MI Z 
VES Bs FONE R E REMAS ARAN S 计算 预测 分 布 
biip 人 s AY Afi f(b a) 一 般 不 好 处 理 ， 而 且 是 非 高 斯 
的 ， 以 利用 高 斯 分 布 对 其 进行 近似 。 
输出 均值 为 
1724 二 1 一 fa (6 a) | 


= Sa Be Qa + ba Min 
fat Py ZEN 


Ve ie = 8288 [BT (Qu — gagi ) Bs + Sas (82? — tr( (Ka + U8) *Qua)) | 
HOS V ds +62 Vir to2 Va 

(2) 第 5 行 〈 预 测 相 ) 。 

在 仿真 相 中 ， 由 于 无 法 用 现实 的 世界 产生 XY ”的 观测 ， 我 们 假设 系 
统 的 置信 方程 为 

Y, = By_itey~N (uë, 2?) 

HP, SEKH S Mit, HAD = Eh HV- HES, 

滤波 更 新 步 : 

Bu~N (Mu, Vin) ， 为 分 层 随机 变量 ， 如 图 14.8 所 示 为 分 层 随 
机 变量 图 模型 ， 有 其 体 的 分 层 公 去 为 

Mae~ N (Mite, Hte) 
Hit = Wm pai t Wey pi = Hit- 
mo” = Wp ERa Wn ER WT +W, E? WE +W, EYW 


Vit = Wm Vie 1 





f_™ 
(B) 
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图 14.8 分 层 随 机 变量 示意 


控制 决策 为 

U, = TMp) 
PARRE E “PS BEALE Bo 
联合 分 布 : 


| | | Die te Om i 
M p= = N de T He 

tlt | U, (ui n tlt Cr ， m ye 
VEW a MMI : 


Boer” N (MesrisV esme) 
FEE Mier N (Mihi Dirie) o 


14.3.2 有 问 探 索 PILCO 算 法 


如 前 所 述 ，PILCO 是 一 个 贫 郴 优化 的 过 程 ， 只 有 exploitation (Al 
FA) “没有 exploration (PRM) 。 衣 特 征 基 体 表 现在 图 14.7PILCO 算 法 的 
第 7 行 ， 即 只 优化 素 积 代价 的 均值 函数 ， 而 没有 利用 它 的 方 震 。 累 积 代 
价 的 方差 图 数 携带 不 确定 性 信息 《探索 信息 ) ， 因 此 ， 能 平衡 利用 和 探 


ZN GE DV Z BE ESE AAPA SR, BEA SE Ze PAT ZU 
方 焉 函数 。 

有 回 探索 PILCO 算 法 与 PILCO 算 法 唯一 的 区 别 就 在 第 7 行 的 优化 目 
标 上 。 

我 们 改变 控制 苍 的 评估 步 ， 不 再 像 PILCO 算法 那样 优化 均值 累积 
代价 Ls ， 而 是 优化 均值 和 方差 的 函数 BO (ul, DS) 。 

在 执行 一 个 单独 的 episode 时 ， 由 于 我 们 假设 控制 器 优化 是 绥 慢 的 ， 
episodes 必 须 在 线 执行 ， 因 此 控制 颖 并 不 改变 。 我 们 考虑 在 不 同 的 
episodes 之 间 探 索 的 改变 是 必要 的 。 

有 回 探 索 PILCO 是 优化 均值 和 方 短 的 图 数 ， 即 优化 BO 函数 。 下 面 
我 们 对 常用 的 BO 函数 进行 简单 介绍 (四 个 BO 函数 ， 其 中 一 个 简单 的 
单 参 数 局 发 式 函 数 ， 三 个 局 发 式 无 参数 ) 

(1) 第 一 个 BO 哨 数 : Upper confidence bound (UCB) . 
平衡 探索 和 利用 ， 了 最 向 单 的 函数 是 利用 置信 度 上 界 : 


UCB(C?) = he — Boe 


其 中 是 一 个 自由 参数 ， 用 来 平衡 利用 uE) 和 探索 or 
(2) 第 二 个 BO 函数 ，Probability of Improvement (PI) 。 
考虑 到 我 们 的 智能 体 已 经 执行 了 一 些 不 同 的 控制 器 ， 不 同 的 控制 器 
参数 在 更 _ 中。 假设 目前 最 低 的 劣迹 代价 为 C ~N (ue, ES) 。 设 任意 控 
制 器 的 参数 对 应 的 累积 代价 为 Ce~N (us, ES) ，PI 是 最 大 化 比 当前 策 
略 更 好 的 概率 : 
PI(C?) 一 -2D(CY <C) 


E — ig 
一 中 Ke HA po 1 
VESHE 
(3) 第 三 个 BO 了 水 数 Expected Improvement (EI) 。 
一 个 病态 情况 是 ， 当 PI 在 策略 "7” 有 99% 的 机 会 进行 无 用 的 改进 ， 


mitar” 有 98 冯 的 机 会 进行 有 用 的 改进 时 ，PI 的 方法 肯定 选择 前 
者 ， 即 使 后 者 直观 上 来 说 提供 了 一 个 更 好 的 改进 时 。Expected 
Improvement 通 过 限 幅 改进 而 权重 化 了 概率 改进 。 


EI(C?) = Eo: [min (C? 一 C ,0)| 


He 一 bx c [he 一 poe JZ FN 
= 6| -nl — pf) = IE 4+ ES 
f Xf HES (me =) J+ 


(4) 第 四 个 BO 函数 Gittins Index (GI) 基 廷 斯 指数 。 
E AEE HRON 
2 


GT (pE ,0°,0,,7) =A= pe +X, —Z 


af Gg Pay 
14.4 7 FEPILCO 


前 两 节 介 绍 了 PILCO 两 个 方面 的 扩展 ， 即 滤波 PILCO 和 有 问 探 索 
PILCO。 这 两 个 方面 的 探索 还 是 基于 高 斯 回归 模型 的 。 正 如 上 一 节 分 析 
AJ re Dy Le] Ve A EE DPE EPS EZ TB). TAK, Rowan McAllister!) H 
贝 叶 斯 神经 网 络 代替 高 斯 回归 模型 对 PILCO 进 行 扩 展 ， 即 深度 PILCO。 

PILCO 数 据 效 率 高 的 主要 原因 是 所 采用 的 模型 是 概率 模型 ， 而 且 在 
预测 将 来 步 时 ， 每 一 步 的 输出 都 是 个 概 座 分布， 而 输入 也 是 概 深 分 布 。 
采用 贝 叶 斯 神经 网 络 代 伍 噩 斯 回归 檬 型， 应 该 使 得 贝 叶 斯 神经 网 络 模型 
具有 这 个 能 力 。 下 面 我 们 看 看 Rowan McAllister 是 如 何 使 贝 叶 斯 神经 网 
络 模型 具有 这 两 个 能 力 的 。 

第 一 ， 输 出 不 确定 性 。 

对 于 高 斯 回归 模型 ， 当 给 定 一 个 输入 时 ， 其 输出 是 一 个 分 布 。 而 对 
于 一 般 的 神经 网 络 ， 输 出 往往 是 一 个 确定 的 数 。 贝 叶 斯 神经 网 络 跟 一 般 
的 神经 网 络 不 同 之 处 是 它 的 输出 也 是 个 分 布 。 

那么 什么 是 贝 叶 斯 神经 网 络 呢 ? 

从 网 络 的 结构 来 看 ， 贝 叶 斯 神经 网 络 和 一 般 的 神经 网 络 没 有 任何 区 
别 ， 也 包括 输入 层 ， 隐 合 层 和 输出 层 。 不 同 的 是 ， 这 两 个 网 络 得 到 权 值 


的 方式 不 一 样 。 

对 于 一 般 的 神经 网 络 ， 我 们 是 如 何 得 到 权 值 的 ?通用 的 方法 就 是 给 
一 个 训练 集 ， 一 个 损失 函数 ， 然 后 利用 训练 集 和 使 得 损失 函数 最 小 ， 从 
而 得 到 权 值 。 

由 时 斯 神经 网 络 并 不 是 这 样 得 到 权 值 的 。 

由 时 斯 神经 网 络 会 根据 已 有 的 观测 数据 ， 即 训练 数据 ， 来 推测 出 网 
络 的 权 值 应 该 是 多 少时 才 产 生 这 样 的 观测 数据 (也 束 是 训练 数据 〉。 

如 何 推测 呢 ? 

当然 是 用 见 叶 斯 公式 了 ， 即 
p(Y|X,w) p(w) 

p(Y|X) 

式 中 X 和 Y 为 训练 集 的 数据 。 假 说 我 们 已 经 通过 各 种 方法 得 到 了 权 
值 的 后 验 分 布 ， 那 么 对 于 一 个 新 的 点 Z  ， 利 用 贝 叶 斯 神经 网 络 ， 可 以 
预测 其 输出 为 


p(w|X,Y) = (14.15) 


ply |z ,X,Y) = | p(y’) puly) (14.16) 


利用 贝 叶 斯 神经 网 络 的 难点 是 如 何 计算 〈14.15) 却 中 的 分 母 项 ， 
在 深度 学 习 领 域 ， 这 一 项 往往 称 为 配 分 图 效 。 配 分 图 数 的 计算 公 陈 为 


p(Y|X) = / p(¥1X,w) p (w)dw HAIT 


计算 这 个 积分 又 称 为 marginalising， 对 参数 进行 边界 化 处 理 。 在 贝 
叶 斯 线性 化 回归 中 ， 边 界 化 可 通过 解析 的 方法 计算 得 到 。 但 是 在 大 部 分 
模型 中 ， 边 界 化 无 法 得 到 。 

由 于 边界 化 难以 计算 得 到 ， 因 此 (14.15) 式 的 计算 难以 得 到 。 需 
要 用 近似 分 布 到 这 (14.15) sh, me ATA IE MPSS 
近 变 分 分 布 qo(w) ， 其 中 参数 为 0 ， 最 小 化 两 个 分 布 之 间 的 KL 散 度 : 


KL (qo (w)||p (w| X,Y) ) = fa (w)log ee dw (14.18 ) 


得 到 逼近 分 布 ge (w) 之 后 ， 我 们 便 能 逼近 预测 分 布 44.16) 式 ， 即 


p(y |x’ ,X,Y) ~ | ph suai (wd (14.19) 
KEL 散 度 最 小 化 也 等 价 于 最 大 化 下 界 : 
Lu(0):= J 1» (w)logp (¥|X,w) dw -KLln dibi 


这 个 过 程 相当 于 变 分 推理 (VI) . Yarin Gal 在 他 的 博士 论文 
Uncertainty in Deep Learning 中 基于 脓 特 卡 多 和 子 采 样 扩 术 提 出 了 一 个 实 
用 的 变 分 推理 方法 ， 得 到 最 优 参数 。 这 里 惑 不 详细 介绍 了 .总 之 ， 当 给 
定 一 个 新 的 点 时 ， 利 用 贝 叶 斯 神经 网 络 会 得 到 一 个 输出 分 布 ， 即 
(14.19) 式 。 

第 二 ， 输 入 不 确定 性 。 

PILCO 能 够 通过 高 斯 模型 解析 地 传递 不 确定 性 ， 神 经 网 络 无 法 做 
到 。 因 为 ， 神 经 网 络 的 输入 往往 是 一 个 确定 的 值 。 为 了 将 不 确定 性 分 布 
融入 动力 学 模型 ，Rowan 提 出 利用 粒子 的 方法 。 

什么 是 粒子 的 方法 ? 

说 白 了 就 是 多 采 几 个 点 。 因 此 ， 这 惑 涉及 输入 分 布 的 采样 。 

如 图 14.9 为 深度 PILCO 的 预测 过 程 。 早 纯 基 于 粒子 的 方法 可 能 会 导 
致 粒子 退化 ， 也 束 是 说 粒子 的 多 样 性 会 变 笃 ， 所 有 的 粒子 趋同 于 相同 。 
Rowan 引入 了 重 采 样 技 术 ， 并 利用 和 宅 匹 配 的 方法 对 粒子 分 布 进行 重新 拟 
合 。 也 瓯 是 网 14.9 中 第 10 行 到 第 11 行 。 


Algorithm 2 Step 6 of Algorithm 1: Predict system trajec- 
tories from p( Xo) to p( Xr) 
1: Define time horizon T. 
2: Initialise set of K particles rë ~ P(Xo). 
3: for k = 1 to K do 
4: Sample BNN dynamics model weights W*. 
5: end for 
6: for time t= 1 to T do 
7: for each particle zl to zf do 
8: Evaluate BNN with weights W* and input particle 
r¥, obtain output y¥. 
9: end for 
10: Calculate mean p+ and standard deviation o? of 
{yh ns yË} 
11: Sample set of K particles x, , ~ N (14,07). 
12: end for 


图 14.9 深度 PILCO 预 测 过 程 


后 记 


书 虽然 结束 了 ， 但 研究 才 了 刚刚 开始 ! 

强化 学 习 中 的 很 多 课题 如 多 智能 体 强 化 学 习 、 分 层 强 化 学 习 、 元 强 
化 学 习 、 迁 移 学 习 等 ， 在 书 中 疝 未 讨论 ， 但 这 些 高 级 课题 会 在 知 乎 专栏 
《强化 学 习 知 识 大 讲堂》 中 陆续 更 新 ， 请 大 家 多 多 关注 。 男 外 ， 本 书 第 
四 篇 名 为 “强化 学 习 研 究 及 前 沿 ”"， 但 书 中 所 说 的 “ 醒 沿 ”也 只 是 相对 有 的 。 
强化 学 习 领 域 日 新 月 异 ， 新 的 理论 和 方法 如 雨后春笋 一 般 出 现 。 如 今 ， 
强化 学 习 领 域 几乎 每 个 月 都 会 有 新 的 突破 ， 新 论文 出 现 的 速度 远大 于 个 
人 阅读 的 速度 ， 真 是 令 人 应 接 不 上 暇 。 这 有 点 儿 像 2013 年 左右 的 深度 学 习 
领域 。 不 过 ， 璋 开 这 些 新 算法 的 外 衣 ， 你 会 发 现 其 基本 的 概念 和 工具 还 
是 本 书 所 涉及 的 内 容 。 所 谓 万 变 不 离 其 未， 只 有 深入 理解 基本 概念 ， 我 
们 才 不 会 在 理论 和 知识 的 快速 迭代 更 新 中 慰 尺 失措 。 

本 书 成 稿 成 于 2017 年 6 月 份 。 从 2017 年 6 月 至 本 书 公 开 出 版 期 间 ， 学 
术 界 和 工业 界 义 发 生 了 一 系列 大 事 ， 摘 录 如 下 。 

e2017 年 7 月 份 ， 强 化 学 习 算 法 的 两 大 阵营 DeepMind 和 OpenAI 分 别 
公布 最 新 的 具有 重 棒 性 的 无 模型 强化 学 习 算 法 : 近 端 优化 算法 
(PPO) : 

e2017 年 8 月 份 ，DeepMind HIS Ares Bln $2, Fa oR 
习 新 的 征战 领域 ，OpenAI 在 dota2 的 1V1 比 赛 中 击败 人 类 顶级 玩家 ; 

e2017 年 10 月 份 ，DeepMind 在 《Nature》 人 发 表 AlphaGo ”Zero 技术 细 
W, EIBAR IATER, RITEN AR: 


xe 


突破 没有 停止 ， 也 不 会 停止。 

未 来 几 年 ， 强 化 学 习 算 法 会 在 各 行 各 业 不 断 给 我 们 市 来 恢 吉 ! 
我 们 会 拭目以待 ， 我 们 也 会 打 好 基础 ， 练 好 内 功 ! 

或 许 不 经 意 间 ， 我 们 目 己 也 会 创造 历史 ! 
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